ChineseNLP

中文词向量 (Word Embeddings)

背景

词向量 (Word Embeddings)通过对大量的文本语料进行训练,对每一个词 (word type) 返回一个n维的实数向量。向量表征了每个词的单词的句法和语义信息,这些信息可用于解决各种NLP任务。在中文任务中,词向量的单位除了词 (word) 以外也可以是字 (character) 或者 sub-character.

示例

输入:

大文本语料库

输出:

vec(“查询”) = [-0.059569, 0.126913, 0.273161, 0.225467, -0.185914, 0.018743, -0.18434, 0.083859, -0.115781, -0.216993, 0.063437, -0.005511, 0.276968,…, 0.254486]

标准评价指标

词向量的表现既可以进行内部任务 (intrinsically) 评估(比如观察相似的单词是否具有相近的词向量),也可以通过外部任务 (extrinsically) 的方式评估,既通过使用新的词向量能为下游NLP任务(例如情感分析)的结果带来多少提升。

内部任务评估(intrinsic evaluation)主要关注:

外部任务评估(extrinsic evaluation):

更多关于word embedding评价指标的比较可以参考这篇文章Torregrossa et al., 2020

Chinese word similarity lists.

Test set # 带有人工标注的相似性分数的词汇对
wordsim-240 240
wordsim-296 297

评价指标

结果

System wordsim-240 (⍴) wordsim-296 (⍴)
Sun et. al. (2019) (VCWE) 57.81 61.29
Yu et. al. (2017) (JWE) 51.92 59.84

Chinese word analogy lists.

例如当给出 “法国 : 巴黎 :: 中国 : ?”这样的例子时, 系统应该返回正确答案”北京”.

Test set 类比数量
国家首都 687
城市省份 175
家庭关系 240

评价指标

结果

System Accuracy (国家首都) Accuracy (城市省份) Accuracy (家庭关系) Accuracy (总体)
Yu et. al. (2017) (JWE) 0.91 0.93 0.62 0.85
Yin et. al. (2016) (MGE) 0.89 0.88 0.39 0.76
CBOW (baseline) 0.84 0.88 0.60 0.79

中文情感分析 (sentiment analysis).

Test set # 正向评论 # 负向评论
笔记本电脑 417 206
汽车 886 286
相机 1,558 673
手机 1,713 843

结果

System Accuracy (笔记本电脑) Accuracy (汽车) Accuracy (相机) Accuracy (手机) Accuracy (总体)
Sun et. al. (2019) (VCWE) 80.95 85.59 83.93 84.38 88.92
Yu et. al. (2017) (JWE) 77.78 78.81 81.70 81.64 85.13
Baseline (skip-gram) 69.84 77.12 80.80 81.25 86.65

中文实体标记 (name tagging).

Test set Size (words) 主题 (Genre)
SIGHAN 2006 NER MSRA 100,000 新闻,广播新闻,博客

结果

System F1 score
Sun et. al. (2019) (VCWE) 85.77
Yu et. al. (2017) (JWE) 85.30

相关资源

Train set Size (words) 主题 (Genre)
SIGHAN 2006 NER MSRA 1.3M 新闻,广播新闻,博客

其他资源

一些 Word embedding

Name Additional features Training Corpus Size Source
FastText - 374M characters Grave et al., 2018
Mimick Interpolate between similar characters to improve rare words, multilingual   Pinter et al., 2017
Glyph2vec Uses character bitmaps, canjie to address OOV problem 10M chars Chen et al., 2020

文本语料

Corpus Size (words) Size (vocabulary) 主题 (Genre)
Wikipedia dump 153,278,000 66,856 开放主题
People’s Daily 31,000,000 105,000 新闻

建议? 修改? 请发邮件到 chinesenlp.xyz@gmail.com