ChineseNLP

中文机器翻译 (Machine Translation)

背景

机器翻译(MT)将文本从一种语言转换翻译为另一种语言。这里, 我们专注于源语言(source language)或目标语言 (target language)为中文的任务。

示例

输入:

美中两国可能很快达成一个贸易协议。

输出:

The United States and China may soon reach a trade agreement.

标准评价指标

中英翻译

WMT.

第二届机器翻译大会 (WMT17) 与CWMT 2017合作, 提供了中/英机器翻译的子任务.

Test set Size (sentences) Genre
WMT17 Parallel English/Chinese test set 2001 News

注意: WMT19 已在进行中 详情.

评价指标

结果

中译英 (WMT17)

System Direct Assessment (Ave z) Bleu
[Hany et al 18]   27.4
[Wang et al 17] 0.209 26.4
[Sennrich et al 17] 0.208 25.7
[Tan et al 17] 0.184 26

英译中 (WMT17)

System Direct Assessment (Ave z) Bleu
[Wang et al 17] 0.208  
[Sennrich et al 17] 0.178 36.3
[Tan et al 17] 0.165 35.8

相关资源

目前有许多英文/中文平行语料资源可以用来训练机器翻译(MT)系统。 以下是一些公开可获取的资源:

Dataset Size (words on English side) 主题 (Genre)
UN 327m 政治
New Commentary v12 5m 新闻
CWMT 154m 网络, 电影, 百科, 政府, 新闻对话, 小说, 技术文档
AI_Challenger 120m 电影字幕, 英语学习, 等等.
WMT 2017 Dev 54k 新闻

The Linguistic Data Consortium (LDC) 还有其他资源,例如FBIS和NIST测试集。

NIST.

NIST在支持中英文机器翻译领域发展上有着很长的历史,许多模型都公布过在NIST测试集上的结果。在21世纪第一个十年间, NIST每年创建测试集并组织年度NIST OpenMT 测评 (evaluations)。

测试集包含中文句子,每个句子有四个不同的(人类参考)英语翻译。 四个参考翻译使NIST成为一个非常强大的测试集 (evaluation set).

训练 (Training) 和评估 (evaluation) 条件的不同使得系统之间的比较变得困难。

这篇论文 提供了一个基于NIST数据集的标准语料库和标准评测方法,同时也汇报了一个中翻英的更高的Bleu得分。 Github

Test set Size (sentence pairs) 主题 (Genre)
NIST 02 878 新闻
NIST 03 919 新闻
NIST 04 1788 新闻
NIST 05 1082 新闻
NIST 06 1664 新闻, 广播新闻, 广播对话, 网络新闻
NIST 08 1357 新闻, 广播新闻, 广播对话, 网络新闻

评价指标

Bleu

结果

System Training sentence pairs 评价脚本 NIST 02 NIST 03 NIST 04 NIST 05 NIST 06 NIST 08 平均值
[Zhang et al 2019] 1.25m mteval-v11b   48.31 49.40 48.72 48.45   48.72
[Hadiwinoto & Ng, 2018] 7.65m mteval-v13a 46.94 47.58 49.13 47.78 49.37 41.48 47.05
[Yang te al, 2020] 1.2m unspecified   46.56   46.04   37.53  
[Meng et al 2019] 1.25m unspecified 40.56 (dev) 39.93 41.54 38.01 37.45 29.07 37.76
[Ma et al 2018c] 1.25m unspecified 39.77 (dev) 38.91 40.02 36.82 35.93 27.61 36.51
[Chen et al 2017] 1.6m multibleu 36.57 35.64 36.63 34.35 30.57    

相关资源

The Linguistic Data Consortium (LDC) 提供了用于NIST OpenMT任务的训练语料。

IWSLT 2015.

Test sets Size (sentences) # of talks Genre
tst2014 1068 12 TED演讲
tst2015 1,080 12 TED演讲

评价指标

结果

中译英 (tst2015)

System Bleu NIST TER
MITLL-AFRL 16.86 5.2565 67.31

英译中 (tst2015)

System Bleu NIST TER
Univ. Edinburgh 25.39 6.3985 60.83
MITLL-AFRL 24.31 6.4136 59.00

相关资源

  Size (sentences) # of talks 主题 (Genre)
Train 210k 1718 TED演讲

TED corpus.

网站包含一个最新的用于机器翻译研究的多语种TED talks语料库。同时该网站也提供了一个由Kevin Duh维护的排行榜 (leaderboard).

Test set Size (sentences) 主题 (Genre)
Chinese/English test 1,982 TED演讲
Chinese/English dev 1,958 TED演讲

网站包含更多的语言种类,但是train/test划分方式不同。

结果

中翻英

System Bleu
Kevin Duh, 6-layer transformer (Sockeye) 16.63

英翻中

System Bleu
Kevin Duh, coming Not yet available

相关资源

The Multitarget TED Talks Task (MTTT)

中日翻译

Workshop on Asian Translation.

The Workshop on Asian Translation 从2014年开始举办, 在这里主要介绍2018年中文/日文评测任务。

评价指标

ASPEC 中日翻译 (ASPEC Chinese-Japanese)

参与者须从该网站获取数据 数据链接

Test set Size (sentences) 主题 (Genre)
ASPEC Chinese-Japanese 2107 Scientific abstracts
ASPEC Japanese-Chinese 2107 Scientific abstracts

日本专利局专利数据 (JPO Patent Corpus 2)

参与者须从该网站获取数据 数据链接

Test set Size (sentences) 主题 (Genre)
JPCN Chinese-Japanese 5,204 专利
JPCN Japanese-Chinese 5204 专利
JPCN1 Chinese-Japanese 2000 专利
JPCN1 Japanese-Chinese 2000 专利
JPCN2 Chinese-Japanese 3,000 专利
JPCN2 Japanese-Chinese 3,000 专利
JPCN3 Chinese-Japanese 204 专利
JPCN3 Japanese-Chinese 204 专利
JPSEP Chinese-Japanese 1151 专利表达模板 (Patent Expression Patterns)

结果

相关资源

Test set Size (sentences) 主题 (Genre)
Japanese-Chinese train 250,000 专利
Japanese-Chinese dev 2000 专利
Japanese-Chinese devtest 2000 专利

IWSLT2020 ZH-JA Open Domain Translation.

Shared task 旨在促进亚洲语言之间的机器翻译的研究工作,鼓励通过更好的利用大量noisy parallel的数据来提升机器翻译的能力.

评价指标

Shared task提供了一个包括了多个主题的非公开的测试集,测试集数据从高质量人工翻译的中日双语的网页内容中提取,测试集的时间跨度为2020年1月到2020年3月.

Test set Size (sentences) Genre
日译中 875 mixed-genre
中译日 875 mixed-genre

结果

中译日

System Bleu
CASIA* 43.0
Xiaomi 34.3
TSUKUBA 33.0

日译中

System Bleu
CASIA* 55.8
Samsung Research China 34.0
OPPO 32.9

* 表示用于训练模型的外部数据意外与测试集有部分重合.

相关资源

Dataset Size (sentences) Genre
Web crawled 18,966,595 mixed-genre
Existing parallel sources 1,963,238 mixed-genre

其他 shared tasks

CWMT.

全国机器翻译研讨会 (China Workshop on Machine Translation) CWMT 2017 and [2018] (http://www.cipsc.org.cn/cwmt/2018/english/) 提出的6个任务:

Test set Size (sentences) 主题 (Genre)
CWMT Chinese-English news 1000 新闻
CWMT English-Chinese news 1000 新闻
Mongolian-Chinese 1001 日常用语
Tibetan-Chinese 729 政府文件
Uyghur-Chinese 1000 新闻
Japanese-Chinese 1000 专利

2019年 CWMT 更名为全国机器翻译大会 (China Conference on Machine Translation) CCMT

评价指标

BLEU-SBP 是主要评价指标, 其他评价指标还包括 BLEU-NIST, TER, METEOR, NIST, GTM, mWER, mPER, and ICT.

结果

仍在编译中(Still being compiled).

相关资源

详情见这里

其他资源

Opus 是一个非常好的寻找开源平行语料库的网站,提供搜索功能。


建议? 修改? 请发邮件到chinesenlp.xyz@gmail.com