ChineseNLP

中文实体链接 (Entity Linking)

背景

实体链接识别文本片段并将它们与标准数据库,知识库,地名词典,维基百科页面等中的对应条目进行链接。文本片段除了专有名词 (proper noun) (例如”Bob”) 外,还包括指代名词 (nominals), 例如 “the player”。

示例

输入:

美国国防部长马蒂斯说,与首尔举行的名为“秃鹫”的军事演习每年春天在韩国进行,但2019年将“缩小规模”。

输出:

[美国]wiki/United_States国防部长[马蒂斯]wiki/Jim_Mattis说,与[首尔]wiki/Seoul举行的名为“秃鹫”的军事演习每年春天在[韩国]wiki/South_Korea进行,但2019年将“缩小规模”。

标准评价指标

TAC-KBP / EDL 2017 Track.

The NIST TAC Knowledge Base Population (KBP) Entity Discovery and Linking (EDL)包括5种类型的中文实体标注:人(PER),地缘政治实体(GPE),地点(LOC),组织(ORG)以及设施(FAC)。

实体是被链接到BaseKB (LDC2015E42: TAC KBP 2015 Tri-Lingual Entity Discovery and Linking Knowledge Base).

评估数据由Linguistic Data Consortium (LDC)发布.

评测数据可以通过Linguistic Data Consortium (LDC)获取.

Test set 数量 (文件) 主题(Genre)
TAC-KBP-EDL 2015 313 (train + eval) 新闻
TAC-KBP-EDL 2016 166 新闻
TAC-KBP-EDL 2017 167 新闻

评价指标

NERC F-score

结果

系统 TAC-KBP / EDL 2015
Names
TAC-KBP / EDL 2016
Names and nominals
TAC-KBP / EDL 2017
Names and nominals
Sil et al (2018) 84.4    
Pan et al (2020) 84.2    
Pan et al (2020) 81.2 (无监督)    
开放任务记录中的最佳匿名系统 76.9 76.2 67.8

相关资源

训练集 (train) 和测试集 (test) 可以通过 Linguistic Data Consortium (LDC) 获取.


建议? 修改? 请发邮件到chinesenlp.xyz@gmail.com