收录现代汉语常⽤词表(第1版〔草案,2008年〕、第2版〔2021年〕)、义务教育常用词表(草案〔2019年〕)文字版数据。
如发现文件中的错讹,欢迎提交修改。
**第1版(草案)**数据参考以下资料并适当修正。
- https://gist.github.com/indiejoseph/eae09c673460aa0b56db
- https://github.com/liangqi/chinese-frequency-word-list
第2版数据使用OCR处理生成,并参考第1版数据等适当修正。
拼音数据主要来自《现代汉语词典(第7版)》《现代汉语规范词典》(第2/4版),和源文件不一定一致,
儿化音判断主要参考拼音数据,可能有不确切的地方。一个词的多个读音使用、并列。
专名分类(NER,本仓库补充,非原书内容):P-人名,L1-中国地名,L2-外国地名。一词多义的仅标注其中一种类型。
通用词的构成的人名、地名一般不标。
音节统计如下(儿化音不计入)(和原书中标注仍有一些出入,待修正):
| 音节数 | 草案 | 统计 | / | 第2版 | 统计 |
|---|---|---|---|---|---|
| 单⾳节 | 3181 | 3183 | 3149 | 3151 | |
| 双⾳节 | 40351 | 40347 | 40924 | 40922 | |
| 三⾳节 | 6459 | 6457 | 6583 | 6582 | |
| 四⾳节 | 5855 | 5858 | 5966 | 5966 | |
| 五⾳节及以上 | 162 | 163 | 168 | 169 | |
| 合计 | 56008 | 56008 | 56790 | 56790 |
《现代汉语常⽤词表(草案)》的研制⼯作启动于1998年,2007年完成,2008年出版。课题组负责人李⾏健、苏新春。
词表使⽤的汉字总数为5144个,涵盖了《现代汉语常⽤字表》的所有有构词能⼒的字,并均在《现代汉语通⽤字表》的⽤字范围。
本表共收录常⽤词语56008个,包括
- 单⾳节词3181个,
- 双⾳节词语40351个,
- 三⾳节词语6459个,
- 四⾳节词语5855个,
- 五⾳节和五⾳节以上词语162个。
《现代汉语常用词表(第2版)》于2015年启动,对原“词表”进行修订,扩充了相关语料,2020年完成,2021年出版。李行健和苏新春主编。
主要更新:
- (⼀)增收词语1050条左右(包括新产⽣的政治经济社会事物及思想观念习俗认识⽅⾯的新词、新产⽣的⾏为习俗⽅⾯的新词、漏收的常⽤词语);
- (⼆)删除词语220余条(包括组合性强的搭配性词语、少⽤罕⽤的旧词、不再常⽤的新词语、不能独⽴成词并较少⽤的单⾳语素);
- (三)修改(增删)部分拼⾳;
- (四)修改词形,主要移除不太常用的异形词。
本词表共收录常⽤词56790个,包括
- 单⾳节词3149个,
- 双⾳节词40924个,
- 三⾳节词6583个,
- 四⾳节词5966个,
- 五⾳节和五⾳节以上词语168个。
《义务教育常用词表(草案)》,苏新春主编,研制时间2011年到2017年,2019年出版,参考2011版课程标准。
在线网站:https://nclds.xmu.edu.cn/ywjy
词语用字主要为一级字(约3300字),少量二级字(200多字),三级字1个(晖),词语分布如下:
| 音序表 | 15114 | 义类表 | 17092 | 字形统计 | 15004 |
|---|---|---|---|---|---|
| 单音词目 | 1651 | 一级词目 | 2001 | 单字词目 | 1576 |
| 双音词目 | 10498 | 二级词目 | 5503 | 双字词目 | 10432 |
| 三音词目 | 387 | 三级词目 | 5975 | 三字词目 | 418 |
| 四音词目 | 2578 | 四级词目 | 3613 | 四字词目 | 2578 |
(本仓库文件参考原书和网站数据生成并修正,但统计中仍有稍许出入)
分级:
- 一级词对应第一学段(小学1—2年级)
- 二级词对应第二学段(小学3—4年级)
- 三级词对应第三学段(小学5—6年级)
- 四级词对应第四学段(初中1—3年级)
其他参考数据:
- https://www.scribd.com/document/920788062/
- https://www.zhihu.com/question/336176007/answer/1717875755
- 第2版中存在不规范用字“磺”“矽”等,对应词语如:硫磺(硫黄)、磺胺、矽肺(硅肺);
- 机器分词引出的生硬造词:及其、口快、转阴;
- 收录了奇怪的词、错别字,如:反古、表解、单被、处突、长统袜、产成品、习好;
- 选词标准仍待商榷,比如单音节词(单个字)、网络用字词、异形词的处理(第1版中“喉结/喉节、圆形/圆型、畸形/畸型”)、同形词的条目是否分立统计等;
- 信息不公开,词表的词频信息没有,缺少电子版数据;
- 对词的分级、分类等几乎没有。原草案中计划中的“附表”五部分依旧没有完成:(a)常⽤科技词表;(b)常⽤⽅⾔词(实为⽅源词)表;(c)常⽤⼈名、地名表;(d)常⽤⽂⾔词表;(e)常⽤字⺟词表。