ChineseNLP

中文词性标注 (Part-of-speech tagging)

背景

词性标注任务是将给定句子中的每个单词从给定标签组 (tag set)中赋予一个词性标签 (part-of-speech tag)。

示例

输入:

快速 的 棕色 狐狸 跳过 了 懒惰 的 狗

输出:

[快速] VA [的] DEC [棕色] NN [狐狸] NN [跳过] VV [了] AS [懒惰] VA [的] DEC [狗] NN

标准评价指标

在联合分割标注的任务 (the joint segmentation and tagging task) 中, 计算基于词级别 (word-level) 的精确率 (Precision)和召回率 (Recall),以及F1-score.

Chinese Tree Bank Datasets.

Test set # words (dev) # words (test) 主题 (Genre)
CTB5 6,821 8,008 新闻

评价指标

结果

System F1 score
Tian el. al. (2020) 96.92
Meng et. al. (2019) (Glyce + BERT) 96.61
Meng et. al. (2019) (BERT) 96.06
Shao et. al. 2017 94.38

相关资源

Train set # words 主题 (Genre)
CTB5 493,935 新闻

Universal Dependencies Datasets.

Test set # words (dev) # words (test) 主题 (Genre)
UD Chinese 12,663 12,012 Learner essays, 新闻, 口语, Wiki百科

评价指标

结果

System F1 score
Meng et. al. (2019) (Glyce + BERT) 96.14
Tian el. al. (2020) 95.69
Meng et. al. (2019) (BERT) 94.79
Shao et. al. (2017) 89.75

相关资源

Train set # words 主题 (Genre)
UD Chinese 98,608 Learner essays, 新闻, 口语, Wiki百科

建议? 修改? 请发邮件到 chinesenlp.xyz@gmail.com