实体链接识别文本片段并将它们与标准数据库,知识库,地名词典,维基百科页面等中的对应条目进行链接。文本片段除了专有名词 (proper noun) (例如”Bob”) 外,还包括指代名词 (nominals), 例如 “the player”。
输入:
美国国防部长马蒂斯说,与首尔举行的名为“秃鹫”的军事演习每年春天在韩国进行,但2019年将“缩小规模”。
输出:
[美国]wiki/United_States国防部长[马蒂斯]wiki/Jim_Mattis说,与[首尔]wiki/Seoul举行的名为“秃鹫”的军事演习每年春天在[韩国]wiki/South_Korea进行,但2019年将“缩小规模”。
The NIST TAC Knowledge Base Population (KBP) Entity Discovery and Linking (EDL)包括5种类型的中文实体标注:人(PER),地缘政治实体(GPE),地点(LOC),组织(ORG)以及设施(FAC)。
实体是被链接到BaseKB (LDC2015E42: TAC KBP 2015 Tri-Lingual Entity Discovery and Linking Knowledge Base).
评估数据由Linguistic Data Consortium (LDC)发布.
评测数据可以通过Linguistic Data Consortium (LDC)获取.
Test set | 数量 (文件) | 主题(Genre) |
---|---|---|
TAC-KBP-EDL 2015 | 313 (train + eval) | 新闻 |
TAC-KBP-EDL 2016 | 166 | 新闻 |
TAC-KBP-EDL 2017 | 167 | 新闻 |
NERC F-score
系统 | TAC-KBP / EDL 2015 Names |
TAC-KBP / EDL 2016 Names and nominals |
TAC-KBP / EDL 2017 Names and nominals |
---|---|---|---|
Sil et al (2018) | 84.4 | ||
Pan et al (2020) | 84.2 | ||
Pan et al (2020) | 81.2 (无监督) | ||
开放任务记录中的最佳匿名系统 | 76.9 | 76.2 | 67.8 |
训练集 (train) 和测试集 (test) 可以通过 Linguistic Data Consortium (LDC) 获取.
建议? 修改? 请发邮件到chinesenlp.xyz@gmail.com