词向量 (Word Embeddings)通过对大量的文本语料进行训练,对每一个词 (word type) 返回一个n维的实数向量。向量表征了每个词的单词的句法和语义信息,这些信息可用于解决各种NLP任务。在中文任务中,词向量的单位除了词 (word) 以外也可以是字 (character) 或者 sub-character.
输入:
大文本语料库
输出:
vec(“查询”) = [-0.059569, 0.126913, 0.273161, 0.225467, -0.185914, 0.018743, -0.18434, 0.083859, -0.115781, -0.216993, 0.063437, -0.005511, 0.276968,…, 0.254486]
词向量的表现既可以进行内部任务 (intrinsically) 评估(比如观察相似的单词是否具有相近的词向量),也可以通过外部任务 (extrinsically) 的方式评估,既通过使用新的词向量能为下游NLP任务(例如情感分析)的结果带来多少提升。
内部任务评估(intrinsic evaluation)主要关注:
词语相关性 (word relatedness):在中文词汇相似性数据集wordsim-240和wordsim-296(英语相关资源的翻译)上,人类标记分数与词向量的內积之间的Spearman correlation (⍴)。
单词类比 (word analogy):评估单词类比任务的准确率(例如:“男人:女人::父亲:X”,其中X由余弦相似性 (cosine distance) 选择)单词类比任务通常包括以下类型的词(1)国家首都(2)省份(3)家庭关系 (family relationships)
外部任务评估(extrinsic evaluation):
更多关于word embedding评价指标的比较可以参考这篇文章Torregrossa et al., 2020
Test set | # 带有人工标注的相似性分数的词汇对 |
---|---|
wordsim-240 | 240 |
wordsim-296 | 297 |
System | wordsim-240 (⍴) | wordsim-296 (⍴) |
---|---|---|
Sun et. al. (2019) (VCWE) | 57.81 | 61.29 |
Yu et. al. (2017) (JWE) | 51.92 | 59.84 |
例如当给出 “法国 : 巴黎 :: 中国 : ?”这样的例子时, 系统应该返回正确答案”北京”.
Test set | 类比数量 |
---|---|
国家首都 | 687 |
城市省份 | 175 |
家庭关系 | 240 |
System | Accuracy (国家首都) | Accuracy (城市省份) | Accuracy (家庭关系) | Accuracy (总体) |
---|---|---|---|---|
Yu et. al. (2017) (JWE) | 0.91 | 0.93 | 0.62 | 0.85 |
Yin et. al. (2016) (MGE) | 0.89 | 0.88 | 0.39 | 0.76 |
CBOW (baseline) | 0.84 | 0.88 | 0.60 | 0.79 |
Test set | # 正向评论 | # 负向评论 |
---|---|---|
笔记本电脑 | 417 | 206 |
汽车 | 886 | 286 |
相机 | 1,558 | 673 |
手机 | 1,713 | 843 |
System | Accuracy (笔记本电脑) | Accuracy (汽车) | Accuracy (相机) | Accuracy (手机) | Accuracy (总体) |
---|---|---|---|---|---|
Sun et. al. (2019) (VCWE) | 80.95 | 85.59 | 83.93 | 84.38 | 88.92 |
Yu et. al. (2017) (JWE) | 77.78 | 78.81 | 81.70 | 81.64 | 85.13 |
Baseline (skip-gram) | 69.84 | 77.12 | 80.80 | 81.25 | 86.65 |
Test set | Size (words) | 主题 (Genre) |
---|---|---|
SIGHAN 2006 NER MSRA | 100,000 | 新闻,广播新闻,博客 |
System | F1 score |
---|---|
Sun et. al. (2019) (VCWE) | 85.77 |
Yu et. al. (2017) (JWE) | 85.30 |
Train set | Size (words) | 主题 (Genre) |
---|---|---|
SIGHAN 2006 NER MSRA | 1.3M | 新闻,广播新闻,博客 |
Name | Additional features | Training Corpus Size | Source |
---|---|---|---|
FastText | - | 374M characters | Grave et al., 2018 |
Mimick | Interpolate between similar characters to improve rare words, multilingual | Pinter et al., 2017 | |
Glyph2vec | Uses character bitmaps, canjie to address OOV problem | 10M chars | Chen et al., 2020 |
Corpus | Size (words) | Size (vocabulary) | 主题 (Genre) |
---|---|---|---|
Wikipedia dump | 153,278,000 | 66,856 | 开放主题 |
People’s Daily | 31,000,000 | 105,000 | 新闻 |
建议? 修改? 请发邮件到 chinesenlp.xyz@gmail.com