文本摘要任务的输入是长的文本文档,任务的目标是将较长的文本转换成简短,流畅而准确的文本摘要。
输入:
较早进入中国市场的星巴克, 是不少小资钟情的品牌。相比在美国的平民形象,星巴克在中国就 显得“高端”得多。用料并无差别的一杯中杯美式咖 啡,在美国仅约合人民币12元,国内要卖21元,相当 于贵了75%。第一财经日报
输出:
媒体称星巴克美式咖啡售价中国比美国 贵75%。
ROUGE将自动生成的摘要与参考摘要进行比较, 其中ROUGE-1衡量unigram匹配情况,ROUGE-2衡量bigram匹配,ROUGE-L记录最长的公共子序列。ROUGE指标的计算可以以字符 (character) 为单位也能以字 (word) 为单位。
具体实现:
Hu et. al. (2015) 基于新闻媒体在微博上发布的新闻摘要创建了该数据集,每篇短文约100个字符,每篇摘要约20个字符。
数据集下载说明: “如果想获取该数据集。 请填写申请表申请表,中国大陆 / 申请表,其他并发送至 Qingcai Chen 或 Baotian Hu” (数据简介)
Test set | # (text, summary) pairs | # (text, summary) pairs >= 3 score | 主题 (Genre) |
---|---|---|---|
Part II (validation) | 10,666 | 8,685 | 新闻,政治,经济,军事,电影,游戏等等 |
Part III (test) | 1,106 | 725 | 新闻,政治,经济,军事,电影,游戏等等 |
System | ROUGE-1 | ROUGE-2 | ROUGE-L |
---|---|---|---|
Duan et al. (2019) | 44.35 | 30.65 | 40.58 |
Wang et. al. (2018) | 39.9 | 21.5 | 37.9 |
Lin et. al. (2018) | 39.4 | 26.9 | 36.5 |
Ma et. al. (2018) | 39.2 | 26.0 | 36.2 |
Wei et. al. (2018) | 36.2 | 24.3 | 33.8 |
Seq2Seq (baseline) | 32.1 | 19.9 | 29.2 |
Train set | # (text, summary) pairs | 主题 (Genre) |
---|---|---|
Part I | 2,400,591 | 新闻 |
建议? 修改? 请发邮件到 chinesenlp.xyz@gmail.com