ChineseNLP

中文文本分类 (Text Classification)

背景

文本分类 (Text Classification) 根据文本主题内容为文本赋予标签或类别。主题 (topic) 有时广泛，类似于流派（新闻，体育，艺术），但有时也会有像标签 (hashtag) 一样的细粒度。

示例

输入:

[国足]有信心了 中国国奥队取得热身赛三连胜

输出:

体育

标准评价指标

准确率 (Accuracy): 正确分类的样本的百分比。

THUCNews.

新浪新闻RSS订阅频道数据，数据时间范围从2005年到2011年，其中包含7400万条新闻文件（2.19 GB），14个主题，全部采用UTF-8纯文本格式。

数据链接

Source	# Classes	Size(sentences)
THUCNews	14	740,000

评价指标

Accuracy

结果

	Accuracy
J. Chen, C. Cao, X. Jiang	98.7%
Y. Song	97.56%
W. Liu, P. Zhou, et al	96.71%
S. Xin	96.04%
Sun, Baohua, et al	94.85%

SogouCS.

数据来源于2012年6月至7月间搜狐18个频道 (channel) 的新闻。

Website

Source	# Classes	Size(sentences)
Sougou news dataset	5	86,597

评价指标

Accuracy

结果

	Error rate
Chung, Tonglee, et al	3.37%

Dataset	Classes	Train(samples size)
Sougou news dataset	5	490,717

Fudan corpus.

包括20个类别的一共9804个文档。

Source	# Classes	Size(sentences)
Fudan corpus	5	1836

评价指标

Accuracy

结果

	Accuracy
Sun, Baohua, et al	97.8%
Meng et al, 2019	96.3%

Source	# Classes	Size(sentences)
Fudan corpus	5	4284

Ifeng.

2006-2016年间凤凰网上的新闻文章，每篇选取前几个段落，数据集有5个新闻频道 (channel),每个频道(channel)包含的文章数相等。

Github link

Source	# Classes	Size(sentences)
Ifeng	5	50,000

评价指标

Accuracy

结果

	Accuracy
Meng et al, 2019	85.8%
Sun, Baohua, et al	84.4%
Zhang and Lecun 2017	83.7%

Dataset	Classes	Train(samples size)
Ifeng	5	800,000

Chinanews.

数据来自2008年至2016年的中文新闻文章(已去重)，文章属于7个新闻频道(channel)，每个频道(channel)包含的文章数相等。

Github link

Source	# Classes	Size(sentences)
Chinanews	7	112,000

评价指标

Accuracy

结果

	Accuracy
Sun, Baohua, et al	92.0%
Meng et al, 2019	91.9%
Zhang and Lecun 2017	90.9%

ChineseNLP

中文文本分类 (Text Classification)

背景

示例

标准评价指标

THUCNews.

评价指标

结果

SogouCS.

评价指标

结果

相关资源

Fudan corpus.

评价指标

结果

相关资源

Ifeng.

评价指标

结果

相关资源

Chinanews.

评价指标

结果

相关资源