大模型中文词元统计 说明: 模型Token来自 openai/tiktoken model.py data目录存储二进制token文件 text目录存储解析得到中文词元列表 gpt-zh-vocab-label.tsv 来自 qingjiesjtu/PoCtokens advancedGPTsVocabulary.jsonl