中文文本分类 (Text Classification)
背景
文本分类 (Text Classification) 根据文本主题内容为文本赋予标签或类别。主题 (topic) 有时广泛,类似于流派(新闻,体育,艺术),但有时也会有像标签 (hashtag) 一样的细粒度。
示例
输入:
输出:
标准评价指标
- 准确率 (Accuracy): 正确分类的样本的百分比。
THUCNews.
新浪新闻RSS订阅频道数据,数据时间范围从2005年到2011年,其中包含7400万条新闻文件(2.19 GB),14个主题,全部采用UTF-8纯文本格式。
Source |
# Classes |
Size(sentences) |
THUCNews |
14 |
740,000 |
评价指标
结果
SogouCS.
数据来源于2012年6月至7月间搜狐18个频道 (channel) 的新闻。
评价指标
结果
相关资源
Fudan corpus.
包括20个类别的一共9804个文档。
评价指标
结果
相关资源
Ifeng.
2006-2016年间凤凰网上的新闻文章,每篇选取前几个段落,数据集有5个新闻频道 (channel),每个频道(channel)包含的文章数相等。
Source |
# Classes |
Size(sentences) |
Ifeng |
5 |
50,000 |
评价指标
结果
相关资源
Dataset |
Classes |
Train(samples size) |
Ifeng |
5 |
800,000 |
Chinanews.
数据来自2008年至2016年的中文新闻文章(已去重),文章属于7个新闻频道(channel),每个频道(channel)包含的文章数相等。
Source |
# Classes |
Size(sentences) |
Chinanews |
7 |
112,000 |
评价指标
结果
相关资源
Dataset |
Classes |
Train(samples size) |
China news |
7 |
1,400,000 |
建议? 修改? 请发邮件到 chinesenlp.xyz@gmail.com