EMNLPNov, 2020

IIRC:一个包含不完整信息阅读理解问题的数据集

TL;DR本研究提供了一个名为 IIRC 的数据集,其中包含超过 13K 个来自英文维基百科段落的问题,并且这些问题只提供了部分信息以回答,丢失的信息出现在一个或多个链接的文档中。使用众包工作者编写问题,使得此数据集中的问题与答案出现的上下文表述差异大,包括许多需要离散推理的问题,难度较高。通过构建一种基准模型评测模型在该任务上的表现,本研究发现,该模型在 F1 得分上的表现为 31.1%,而人类性能则为 88.4%。