机器翻译(MT)将文本从一种语言转换翻译为另一种语言。这里, 我们专注于源语言(source language)或目标语言 (target language)为中文的任务。
输入:
美中两国可能很快达成一个贸易协议。
输出:
The United States and China may soon reach a trade agreement.
第二届机器翻译大会 (WMT17) 与CWMT 2017合作, 提供了中/英机器翻译的子任务.
Test set | Size (sentences) | Genre |
---|---|---|
WMT17 Parallel English/Chinese test set | 2001 | News |
注意: WMT19 已在进行中 详情.
中译英 (WMT17)
System | Direct Assessment (Ave z) | Bleu |
---|---|---|
[Hany et al 18] | 27.4 | |
[Wang et al 17] | 0.209 | 26.4 |
[Sennrich et al 17] | 0.208 | 25.7 |
[Tan et al 17] | 0.184 | 26 |
英译中 (WMT17)
System | Direct Assessment (Ave z) | Bleu |
---|---|---|
[Wang et al 17] | 0.208 | |
[Sennrich et al 17] | 0.178 | 36.3 |
[Tan et al 17] | 0.165 | 35.8 |
目前有许多英文/中文平行语料资源可以用来训练机器翻译(MT)系统。 以下是一些公开可获取的资源:
Dataset | Size (words on English side) | 主题 (Genre) |
---|---|---|
UN | 327m | 政治 |
New Commentary v12 | 5m | 新闻 |
CWMT | 154m | 网络, 电影, 百科, 政府, 新闻对话, 小说, 技术文档 |
AI_Challenger | 120m | 电影字幕, 英语学习, 等等. |
WMT 2017 Dev | 54k | 新闻 |
The Linguistic Data Consortium (LDC) 还有其他资源,例如FBIS和NIST测试集。
NIST在支持中英文机器翻译领域发展上有着很长的历史,许多模型都公布过在NIST测试集上的结果。在21世纪第一个十年间, NIST每年创建测试集并组织年度NIST OpenMT 测评 (evaluations)。
测试集包含中文句子,每个句子有四个不同的(人类参考)英语翻译。 四个参考翻译使NIST成为一个非常强大的测试集 (evaluation set).
训练 (Training) 和评估 (evaluation) 条件的不同使得系统之间的比较变得困难。
这篇论文 提供了一个基于NIST数据集的标准语料库和标准评测方法,同时也汇报了一个中翻英的更高的Bleu得分。 Github
Test set | Size (sentence pairs) | 主题 (Genre) |
---|---|---|
NIST 02 | 878 | 新闻 |
NIST 03 | 919 | 新闻 |
NIST 04 | 1788 | 新闻 |
NIST 05 | 1082 | 新闻 |
NIST 06 | 1664 | 新闻, 广播新闻, 广播对话, 网络新闻 |
NIST 08 | 1357 | 新闻, 广播新闻, 广播对话, 网络新闻 |
System | Training sentence pairs | 评价脚本 | NIST 02 | NIST 03 | NIST 04 | NIST 05 | NIST 06 | NIST 08 | 平均值 |
---|---|---|---|---|---|---|---|---|---|
[Zhang et al 2019] | 1.25m | mteval-v11b | 48.31 | 49.40 | 48.72 | 48.45 | 48.72 | ||
[Hadiwinoto & Ng, 2018] | 7.65m | mteval-v13a | 46.94 | 47.58 | 49.13 | 47.78 | 49.37 | 41.48 | 47.05 |
[Yang te al, 2020] | 1.2m | unspecified | 46.56 | 46.04 | 37.53 | ||||
[Meng et al 2019] | 1.25m | unspecified | 40.56 (dev) | 39.93 | 41.54 | 38.01 | 37.45 | 29.07 | 37.76 |
[Ma et al 2018c] | 1.25m | unspecified | 39.77 (dev) | 38.91 | 40.02 | 36.82 | 35.93 | 27.61 | 36.51 |
[Chen et al 2017] | 1.6m | multibleu | 36.57 | 35.64 | 36.63 | 34.35 | 30.57 |
The Linguistic Data Consortium (LDC) 提供了用于NIST OpenMT任务的训练语料。
Test sets | Size (sentences) | # of talks | Genre |
---|---|---|---|
tst2014 | 1068 | 12 | TED演讲 |
tst2015 | 1,080 | 12 | TED演讲 |
中译英 (tst2015)
System | Bleu | NIST | TER |
---|---|---|---|
MITLL-AFRL | 16.86 | 5.2565 | 67.31 |
英译中 (tst2015)
System | Bleu | NIST | TER |
---|---|---|---|
Univ. Edinburgh | 25.39 | 6.3985 | 60.83 |
MITLL-AFRL | 24.31 | 6.4136 | 59.00 |
Size (sentences) | # of talks | 主题 (Genre) | |
---|---|---|---|
Train | 210k | 1718 | TED演讲 |
该网站包含一个最新的用于机器翻译研究的多语种TED talks语料库。同时该网站也提供了一个由Kevin Duh维护的排行榜 (leaderboard).
Test set | Size (sentences) | 主题 (Genre) |
---|---|---|
Chinese/English test | 1,982 | TED演讲 |
Chinese/English dev | 1,958 | TED演讲 |
此网站包含更多的语言种类,但是train/test划分方式不同。
中翻英
System | Bleu |
---|---|
Kevin Duh, 6-layer transformer (Sockeye) | 16.63 |
英翻中
System | Bleu |
---|---|
Kevin Duh, coming | Not yet available |
The Multitarget TED Talks Task (MTTT)
The Workshop on Asian Translation 从2014年开始举办, 在这里主要介绍2018年中文/日文评测任务。
ASPEC 中日翻译 (ASPEC Chinese-Japanese)
参与者须从该网站获取数据 数据链接
Test set | Size (sentences) | 主题 (Genre) |
---|---|---|
ASPEC Chinese-Japanese | 2107 | Scientific abstracts |
ASPEC Japanese-Chinese | 2107 | Scientific abstracts |
日本专利局专利数据 (JPO Patent Corpus 2)
参与者须从该网站获取数据 数据链接
Test set | Size (sentences) | 主题 (Genre) |
---|---|---|
JPCN Chinese-Japanese | 5,204 | 专利 |
JPCN Japanese-Chinese | 5204 | 专利 |
JPCN1 Chinese-Japanese | 2000 | 专利 |
JPCN1 Japanese-Chinese | 2000 | 专利 |
JPCN2 Chinese-Japanese | 3,000 | 专利 |
JPCN2 Japanese-Chinese | 3,000 | 专利 |
JPCN3 Chinese-Japanese | 204 | 专利 |
JPCN3 Japanese-Chinese | 204 | 专利 |
JPSEP Chinese-Japanese | 1151 | 专利表达模板 (Patent Expression Patterns) |
Test set | Size (sentences) | 主题 (Genre) |
---|---|---|
Japanese-Chinese train | 250,000 | 专利 |
Japanese-Chinese dev | 2000 | 专利 |
Japanese-Chinese devtest | 2000 | 专利 |
Shared task 旨在促进亚洲语言之间的机器翻译的研究工作,鼓励通过更好的利用大量noisy parallel的数据来提升机器翻译的能力.
Shared task提供了一个包括了多个主题的非公开的测试集,测试集数据从高质量人工翻译的中日双语的网页内容中提取,测试集的时间跨度为2020年1月到2020年3月.
Test set | Size (sentences) | Genre |
---|---|---|
日译中 | 875 | mixed-genre |
中译日 | 875 | mixed-genre |
中译日
System | Bleu |
---|---|
CASIA* | 43.0 |
Xiaomi | 34.3 |
TSUKUBA | 33.0 |
日译中
System | Bleu |
---|---|
CASIA* | 55.8 |
Samsung Research China | 34.0 |
OPPO | 32.9 |
* 表示用于训练模型的外部数据意外与测试集有部分重合.
Dataset | Size (sentences) | Genre |
---|---|---|
Web crawled | 18,966,595 | mixed-genre |
Existing parallel sources | 1,963,238 | mixed-genre |
全国机器翻译研讨会 (China Workshop on Machine Translation) CWMT 2017 and [2018] (http://www.cipsc.org.cn/cwmt/2018/english/) 提出的6个任务:
Test set | Size (sentences) | 主题 (Genre) |
---|---|---|
CWMT Chinese-English news | 1000 | 新闻 |
CWMT English-Chinese news | 1000 | 新闻 |
Mongolian-Chinese | 1001 | 日常用语 |
Tibetan-Chinese | 729 | 政府文件 |
Uyghur-Chinese | 1000 | 新闻 |
Japanese-Chinese | 1000 | 专利 |
2019年 CWMT 更名为全国机器翻译大会 (China Conference on Machine Translation) CCMT。
BLEU-SBP 是主要评价指标, 其他评价指标还包括 BLEU-NIST, TER, METEOR, NIST, GTM, mWER, mPER, and ICT.
仍在编译中(Still being compiled).
详情见这里
Opus 是一个非常好的寻找开源平行语料库的网站,提供搜索功能。
建议? 修改? 请发邮件到chinesenlp.xyz@gmail.com