ChineseNLP

中文文本分类 (Text Classification)

背景

文本分类 (Text Classification) 根据文本主题内容为文本赋予标签或类别。主题 (topic) 有时广泛,类似于流派(新闻,体育,艺术),但有时也会有像标签 (hashtag) 一样的细粒度。

示例

输入:

[国足]有信心了 中国国奥队取得热身赛三连胜

输出:

体育

标准评价指标

THUCNews.

新浪新闻RSS订阅频道数据,数据时间范围从2005年到2011年,其中包含7400万条新闻文件(2.19 GB),14个主题,全部采用UTF-8纯文本格式。

Source # Classes Size(sentences)
THUCNews 14 740,000

评价指标

结果

  Accuracy
J. Chen, C. Cao, X. Jiang 98.7%
Y. Song 97.56%
W. Liu, P. Zhou, et al 96.71%
S. Xin 96.04%
Sun, Baohua, et al 94.85%

SogouCS.

数据来源于2012年6月至7月间搜狐18个频道 (channel) 的新闻。

Source # Classes Size(sentences)
Sougou news dataset 5 86,597

评价指标

结果

  Error rate
Chung, Tonglee, et al 3.37%

相关资源

Dataset Classes Train(samples size)
Sougou news dataset 5 490,717

Fudan corpus.

包括20个类别的一共9804个文档。

Source # Classes Size(sentences)
Fudan corpus 5 1836

评价指标

结果

  Accuracy
Sun, Baohua, et al 97.8%
Meng et al, 2019 96.3%

相关资源

Source # Classes Size(sentences)
Fudan corpus 5 4284

Ifeng.

2006-2016年间凤凰网上的新闻文章,每篇选取前几个段落,数据集有5个新闻频道 (channel),每个频道(channel)包含的文章数相等。

Source # Classes Size(sentences)
Ifeng 5 50,000

评价指标

结果

  Accuracy
Meng et al, 2019 85.8%
Sun, Baohua, et al 84.4%
Zhang and Lecun 2017 83.7%

相关资源

Dataset Classes Train(samples size)
Ifeng 5 800,000

Chinanews.

数据来自2008年至2016年的中文新闻文章(已去重),文章属于7个新闻频道(channel),每个频道(channel)包含的文章数相等。

Source # Classes Size(sentences)
Chinanews 7 112,000

评价指标

结果

  Accuracy
Sun, Baohua, et al 92.0%
Meng et al, 2019 91.9%
Zhang and Lecun 2017 90.9%

相关资源

Dataset Classes Train(samples size)
China news 7 1,400,000

建议? 修改? 请发邮件到 chinesenlp.xyz@gmail.com