RACE: 大规模考试阅读理解数据集
本文针对英语的机器阅读理解中的 RACE 数据集进行了详细的测试和分析,评估了数据集中多项选择问题的难度,并对基准文本做了注释。研究发现多数多项选择问题未能满足阅读理解任务的基本要求,同时发现基准文本的位置分布存在偏差,这可能对多项选择问题的回答和生成模型的评估造成不利影响。
May, 2023
DREAM 是第一个基于会话的多项选择阅读理解数据集,包含 10197 个问题,针对 6444 个对话,84%的答案是非提取式的,85%的问题需要超出单个句子的推理,34%的问题涉及常识知识。Neural networks 的应用对数据集的阅读理解性能有很大改善。
Feb, 2019
本文提出了一种新的中文阅读理解数据集 —— 包括选择题和用户问题阅读理解,并且是人工验证和隐藏测试集的大规模训练数据。同时,还举办了首届中文机器阅读理解评估(CMRC-2017),成功吸引了数十名参与者。
Sep, 2017
本文介绍了一个针对中文机器阅读理解的 Span-Extraction 数据集及其挑战集,共包含近 20,000 个人类专家在维基百科段落中标注的真实问题,并发布了 CMRC 2018 的评估工作坊,旨在进一步推进中文机器阅读理解研究。
Oct, 2018
本文介绍了以意见为主题的 ReCO 数据集,该数据集是目前中文阅读理解数据集中最大的,其中需要进行因果推理、逻辑推理等各种推理技能。与传统数据集不同的是,ReCO 除了提供上下文段落外,还提供支持证据,这为机器阅读理解提供了很好的挑战。
Jun, 2020
本文提出了 BookTest 数据集作为处理自然语言数据的一种新的解决方案,证明使用该数据集可以使现有的注意力汇总阅读器模型在处理自然语言文本时得到显著的提高,并发现仍有改进的空间。
Oct, 2016
本文介绍了一种称为 ReCoRD 的大型数据集,并在此基础上展示了机器阅读理解需要常识推理,即目前最先进的 MRC 系统表现远远落后于人类,因此该数据集为未来的研究提供了一个挑战,以弥合人类和现有机器的常识阅读理解之间的差距。
Oct, 2018
本研究旨在引入一个新的、需要逻辑推理的阅读理解数据集(ReClor),以推动对文本更全面的推理。实证研究结果表明,针对存在偏见的数据点并将其分为简单和困难集合,可对模型的逻辑推理能力进行全面的评估,从而在提高模型性能的同时,推动领域内更多的研究。
Feb, 2020
介绍 DRCD (Delta Reading Comprehension Dataset),这是一个面向开放领域的传统中文机器阅读理解数据集,包含来自 2,108 个维基百科文章的 10,014 段落和超过 30,000 个问题。我们构建了一个基准模型,其 F1 得分为 89.59%,人类表现的 F1 得分为 93.30%。
Jun, 2018
本研究介绍了一个含有近 10K 文档和近 50K 个问题及其答案的中国司法阅读理解 (CJRC) 数据集,基于 Bert 和 BiDAF 构建了两个强基准模型,实验结果显示与人工标注员的表现相比仍有进步的空间。该数据集可用于司法领域中元素提取的机器阅读理解技术研究。
Dec, 2019