中文里每个汉字即为一个字符 (character)。 一个单词通常由一个或多个字符 (character) 组成。 单词之间没有空格。分词 (segmentation) 是将一系列无空格间隔字符串分割成一系列单词的过程。
输入:
亲 请问有什么可以帮您的吗?
输出:
亲 请问 有 什么 可以 帮 您 的 吗 ?
单词级别的 F1-score:
Gold: 共同 创造 美好 的 新 世纪 —— 二○○一年 新年 贺词
Hypothesis: 共同 创造 美 好 的 新 世纪 —— 二○○一年 新年 贺词
Precision = 9 / 11 = 0.818
Recall = 9 / 10 = 0.9
F1 = 0.857
Corpus | Abbrev. | Encoding | Test Size (Tokens/Types) |
---|---|---|---|
Traditional Chinese | |||
Academia Sinica(Taipei) | AS | Unicode/Big Five Plus | 122K / 19K |
City University of Hong Kong | CityU | HKSCS Unicode/Big Five | 104K / 13K |
Simplified Chinese | |||
Peking University | PK | CP936/Unicode | 41K / 9K |
Microsoft Research | MSRA | CP936/Unicode | 107K / 13K |
Model | AS | CITYU | MSRA | PKU |
---|---|---|---|---|
Ke et al. (2021) | 97.0 | 98.2 | 98.5 | 96.9 |
Qiu, Pei, Yan, Huang (2020) | 96.4 | 96.9 | 98.1 | 96.4 |
Tian, Song, Xia, Zhang, Wang (2020) | 96.6 | 97.9 | 98.4 | 96.5 |
Meng et al. (2019) | 96.7* | 97.9* | 98.3 | 96.7 |
Huang et al. (2019) | 96.6 | 97.6 | 97.9 | 96.6 |
Ma et al. (2018) | 96.2 | 97.2 | 97.4 | 96.1 |
Yang et al. (2017) | 95.7 | 96.9 | 97.5 | 96.3 |
Zhou et al. (2017) | 97.8 | 96.0 |
* 不同于其他模型,Meng et al. (2019)在论文中并未提及将繁体中文转换成简体中文.
Train set | Training Size(Words) |
---|---|
AS | 5.45M |
CityU | 1.46M |
MSRA | 2.37M |
PKU | 1.1M |
Data set | Test set (Tokens) |
---|---|
CTB6 | 81,578 |
CTB7 | 81,578 |
CTB9 | 242K |
Model | CTB6 | CTB7 | CTB9 |
---|---|---|---|
Ke et al. (2021) | 97.9 | ||
Tian, Song, Ao, Xia, Quan, Zhang, Wang (2020) | 97.5 | 97.3 | 97.8 |
Tian, Song, Xia, Zhang, Wang (2020) | 97.3 | ||
Yan et al. (2020) | 97.1 | 97.6 | |
Huang et al. (2019) | 97.6 | ||
Ma et al. (2018) | 96.7 | 96.6** | |
Yang et al. (2017) | 96.2 | ||
Zhou et al. (2017) | 96.2 |
** Ma et al. (2018)在处理CTB7数据集时采用了不同的不同的train/dev/test划分方法,因此结果并不能直接相比较.
Train set | Training Size(Words) |
---|---|
CTB6 | 641K |
CTB7 | 718K |
CTB9 | 1,696K |
Data set | Test set(Tokens) |
---|---|
UD | 12,012 |
Model | UD |
---|---|
Ke et al. (2021) | 98.6 |
Tian, Song, Ao, Xia, Quan, Zhang, Wang (2020) | 98.3 |
Huang et al. (2019) | 97.3 |
Ma et al. (2018) | 96.9 |
Train set | Training Size(Words) |
---|---|
UD | 98,608 |
# Sentences | # Words | # Characters | |
---|---|---|---|
8,592 | - | 315,857 |
Model | |
---|---|
Yang et al. (2017) | 95.5 |
# Sentences | # Words | # Characters | |
---|---|---|---|
Train | 20,135 | 421,166 | 688,734 |
Dev | 2,052 | 43,697 | 73,244 |
建议? 修改? 请发邮件到 chinesenlp.xyz@gmail.com