ChineseNLP

中文文本摘要 (Text Summarization)

背景

文本摘要任务的输入是长的文本文档,任务的目标是将较长的文本转换成简短,流畅而准确的文本摘要。

示例

输入:

 较早进入中国市场的星巴克, 是不少小资钟情的品牌。相比在美国的平民形象,星巴克在中国就 显得“高端”得多。用料并无差别的一杯中杯美式咖 啡,在美国仅约合人民币12元,国内要卖21元,相当 于贵了75%。第一财经日报 

输出:

媒体称星巴克美式咖啡售价中国比美国 贵75%。

标准评价指标

ROUGE将自动生成的摘要与参考摘要进行比较, 其中ROUGE-1衡量unigram匹配情况,ROUGE-2衡量bigram匹配,ROUGE-L记录最长的公共子序列。ROUGE指标的计算可以以字符 (character) 为单位也能以字 (word) 为单位。

具体实现:

LCSTS: A Large Scale Chinese Short Text Summarization Dataset.

Test set # (text, summary) pairs # (text, summary) pairs >= 3 score 主题 (Genre)
Part II (validation) 10,666 8,685 新闻,政治,经济,军事,电影,游戏等等
Part III (test) 1,106 725 新闻,政治,经济,军事,电影,游戏等等

结果

System ROUGE-1 ROUGE-2 ROUGE-L
Duan et al. (2019) 44.35 30.65 40.58
Wang et. al. (2018) 39.9 21.5 37.9
Lin et. al. (2018) 39.4 26.9 36.5
Ma et. al. (2018) 39.2 26.0 36.2
Wei et. al. (2018) 36.2 24.3 33.8
Seq2Seq (baseline) 32.1 19.9 29.2

相关资源

Train set # (text, summary) pairs 主题 (Genre)
Part I 2,400,591 新闻

其他资源


建议? 修改? 请发邮件到 chinesenlp.xyz@gmail.com