问答 (question answering) 任务试图回答自然语言形式提出的问题. 答案有可能来自结构化的数据库中,也可能来自非结构化的文本片段。
输入:
世界上最大的国家是什么?
输出:
俄国
NLPCC 2017 KBQA shared task 要求系统能够从提供事实三元组 (factual triples) 的知识库 (knowledge base) 中检索出答案。知识库包含大约8.7百万的实体 (entity)以及 47.9百万的三元组 (triple).
测试集由人工标注生成。对于每一个三元组,标注者写下一个自然语言形式的问题 (natural-language question),其答案是三元组的对象 (object).测试集中只提供对应的问题/答案对,但是不提供对应的三元组。
Test set | Size (Q/A pairs) | 主题 (Genre) |
---|---|---|
NLPCC-ICCPOL KBQA 2016 | 9870 | 开放领域 |
NLPCC KBQA 2017 | 7631 | 开放领域 |
平均 F1 (Averaged F1).
有14支队伍参与。
System | Averaged F1 |
---|---|
匿名汇报的最佳成绩 | 0.47 |
Train set | Size (Q/A pairs) | 主题 (Genre) |
---|---|---|
NLPCC KBQA 2016/2017 | 14,609 | 开放领域 |
The DBQA shared task at NLPCC 2017 任务要求:
测试集由人工标注生成。标注者从给定的文章 (document) 中挑选出一个句子,并写出一个自然语言形式的问题,该问题的答案就是标注者选出的句子。
Test set | Size (document/sentence pairs) | 主题 (Genre) |
---|---|---|
NLPCC-ICCPOL DBQA 2016 | 5779 | 开放领域 |
NLPCC DBQA 2017 | 2500 | 开放领域 |
NLPCC DBQA 2016
System | MRR | F1 |
---|---|---|
ERNIE 2.0 | 95.8 | 85.8 |
Meng et. al. (2019) (Glyce + BERT) | - | 83.4 |
ERNIE(baidu) | 95.1 | 82.7 |
BERT | 94.6 | 80.8 |
NLPCC DBQA 2017
System | MRR | MAP | Accuracy @ 1 |
---|---|---|---|
匿名汇报的最佳成绩 | 72.0 | 71.7 | 59.2 |
Train set | Size (document/sentence pairs) | 主题 (Genre) |
---|---|---|
NLPCC DBQA 2016/2017 | 8772 | 开放领域 |
CLUE是一个中文自然语言理解任务基准测评benchmark. benchmark中包括了机器阅读理解(MRC)的子任务,机器阅读理解任务试图让机器能够理解非结构化的文本并且从文本中寻找答案回答用户问题.
CLUE中包含了3个机器阅读理解的数据集,分别是: CMRC 2018 (Cui et al.), ChID (Zheng et al.)和 C3 (Sun et al.).
| System | CMRC 2018 | ChID | C3 | | — | — | — | — | | HUMAN (CLUE origin) | 92.40 | 87.10 | 96.00 | | RoBERTa-wwm-ext-large (CLUE origin) | 76.58 | 85.37 | 72.32 | | BERT-base (CLUE origin) | 69.72 | 82.04 | 64.50 |
建议? 修改? 请发邮件到 chinesenlp.xyz@gmail.com