本论文深度分析医疗领域的机器阅读理解 (CliniRC) 任务,重点关注 emrQA 数据集的缺陷及性能,证明对于未来数据集的创建需考虑利用领域知识和通用性。
May, 2020
为了增加推理能力,我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA,该数据集超过 100,000 个 QA 对,由众包工人提供,答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好,这表明未来的研究可以在 NewsQA 上取得显著的进展。
Nov, 2016
本篇研究提出了一种半自动化的消融实验方法,通过检查即使除去与语言理解相关的特征后是否仍然能回答问题,来评估语言理解能力挑战数据集的性能,实验结果表明,很多问题并不需要语法复杂的推理,为了精准评估 MRC 数据集,需要在设计时额外注意。
Nov, 2019
本文提出了一种新的中文阅读理解数据集 —— 包括选择题和用户问题阅读理解,并且是人工验证和隐藏测试集的大规模训练数据。同时,还举办了首届中文机器阅读理解评估(CMRC-2017),成功吸引了数十名参与者。
Sep, 2017
本研究介绍了一个含有近 10K 文档和近 50K 个问题及其答案的中国司法阅读理解 (CJRC) 数据集,基于 Bert 和 BiDAF 构建了两个强基准模型,实验结果显示与人工标注员的表现相比仍有进步的空间。该数据集可用于司法领域中元素提取的机器阅读理解技术研究。
Dec, 2019
本文介绍了一种称为 ReCoRD 的大型数据集,并在此基础上展示了机器阅读理解需要常识推理,即目前最先进的 MRC 系统表现远远落后于人类,因此该数据集为未来的研究提供了一个挑战,以弥合人类和现有机器的常识阅读理解之间的差距。
Oct, 2018
本文提出了一个新的任务 —— 句子填空式机器阅读理解,并构建了一个 Chinese dataset called CMRC 2019 来衡量该任务的难度。结果表明,目前先进的预训练模型仍然无法达到人类的水平。
Apr, 2020
本研究提供了一个名为 IIRC 的数据集,其中包含超过 13K 个来自英文维基百科段落的问题,并且这些问题只提供了部分信息以回答,丢失的信息出现在一个或多个链接的文档中。使用众包工作者编写问题,使得此数据集中的问题与答案出现的上下文表述差异大,包括许多需要离散推理的问题,难度较高。通过构建一种基准模型评测模型在该任务上的表现,本研究发现,该模型在 F1 得分上的表现为 31.1%,而人类性能则为 88.4%。
Nov, 2020
该研究提出了一个名为 MedQA 的问答任务,使用大规模文档集中的知识研究临床医学中的问题解答。提出了一种基于 LSTM 网络和双路径注意力架构的模块化端到端阅读理解模型 SeaReader,其具有从两个角度建模信息流和同时读取和整合多篇文档的能力。实验证明,SeaReader 在 MedQA 上比竞争模型实现了大幅提高,同时开发了一系列新技术以展示 SeaReader 问题解答过程的解释。
Feb, 2018
通过构建名为 LogiQA 的全面数据集,了解了人类逻辑推理能力方面的基本能力在机器阅读中如何得到充分研究。结果表明,最先进的神经模型远不及人类的水平。其数据集也可作为深度学习 NLP 环境下重新研究逻辑 AI 的基准。
Jul, 2020