语言模型 (language model) 可以对计算任何的文本字符串或语料库的概率。好的语言模型对于未观察过的流畅的文本应该能输出一个高概率或者低混淆度(perplexity),反之则输出低概率。
输入:
我们体育界是有信心做到为北京2022年冬季奥运会提供坚实的人才基础
输出:
60.2 混淆度(perplexity)
常用于语言模型领域的英文数据集包括:
Train (words) | Dev (words) | Test (words) | Genre | |
---|---|---|---|---|
Penn Treebank | 888k | 70k | 79k | News |
WikiText-103 | 103m | 218k | 246k | Wikipedia |
Google 1B | 829m | 160k | 160k | News commentary |
总的来说,在中文语言模型领域,标准数据集还远没能达到这种级别的标准规范。
Chinese Treebank数据集由Linguistic Data Consortium (LDC)发布,然而该数据集并未提供一个用于语言模型的训练集 (Train)/开发集 (dev)/测试集 (test)的标准划分规范。
Word tokens | |
---|---|
Chinese Treebank (CBT) v9 | 2m |
考虑到基于不同的训练条件,以下结果并不具有可比性。
Character ppl | Word ppl | Notes | |
---|---|---|---|
Glyce (glyph vectors). We et al, 2019 | 51 | 176 | V6. 4,401个不同的字符。 数据划分 80/10/10. 分词工具: 结巴分词. 只出现过一次的次提出按为 UNK 。 |
RNNG Dyer et al, 2016 | – | 171.9 | V5.1. 31,000的词表. 测试集包含348行。训练集包含50k行 (LDC声称有19k行)。 |
Segmental NLMs Kawakami et al, 2016 | 4.8 bits per character (not ppl) | – | V5.1 手工分词。 评分为bits per character (bpc). 数据. |
Chinese Gigaword也是由Linguistic Data Consortium (LDC)发布.
Corpora | Word tokens |
---|---|
Chinese Gigaword V5 (others exist) | 934k |
考虑到基于不同的训练条件,以下结果并不具有可比性。
Chinese Gigaword | Character ppl | Word ppl | Notes |
---|---|---|---|
Liu et al, NTU 2016 [GW v1] | 86.9 | – | 531k行训练集, 260k行测试集. 5k的词表. 不清楚是基于单词的还是基于字符的语言模型. |
Huang et al, 2010 [GW v2] | – | 220.6 | 610M 的字符, 随机11m字符作为测试集, 使用MSR分词工具。 |
Neural Lattice Models [v5] Buckman+Neubig, 2018 | 32.19 | – | *光明日报, 最高频的10k字符+UNK, 长度<150. 934k行训练集, 30k行测试集。 数据. |
CommonCrawl 发布了海量的基于网络爬虫的中文文本.
CLUE从CommonCrawl的数据中提取了”Clue Corpus 2020”数据集(简称C5). 数据集收集了100GB文本, 包含了350亿中文字符.很适合用于训练中文预训练模型.
更多信息详见论文Xu, Zhang, and Dong
CLUECorpusSmall是一个公开可获取的数据集,详情可参见
数据集包括:
建议? 修改? 请发邮件到chinesenlp.xyz@gmail.com