CliCR: 一份用于机器阅读理解的临床病例报告数据集

ACLMar, 2018

CliCR: 一份用于机器阅读理解的临床病例报告数据集

CliCR: A Dataset of Clinical Case Reports for Machine Reading Comprehension

Simon Šuster, Walter Daelemans

TL;DR利用临床病例和 100,000 个问题构建了医学领域的机器理解数据集，发现在需要运用领域知识和对象追踪的推理中，机器阅读器的表现较好，然而在识别省略信息和进行时空推理方面仍有较大提升空间。

Abstract

We present a new dataset for machine comprehension in the medical domain. Our dataset uses clinical case reports with around 100,000 gap-filling queries about these cases. We apply several baselines and state-of-

machine comprehension medical domain neural readers domain knowledge spatio-temporal reasoning

发现论文，激发创造

临床阅读理解：emrQA 数据集的全面分析

本论文深度分析医疗领域的机器阅读理解 (CliniRC) 任务，重点关注 emrQA 数据集的缺陷及性能，证明对于未来数据集的创建需考虑利用领域知识和通用性。

May, 2020

NewsQA: 一个机器阅读理解数据集

为了增加推理能力，我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA，该数据集超过 100,000 个 QA 对，由众包工人提供，答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好，这表明未来的研究可以在 NewsQA 上取得显著的进展。

Nov, 2016

评估机器阅读理解数据集的基准测试能力

本篇研究提出了一种半自动化的消融实验方法，通过检查即使除去与语言理解相关的特征后是否仍然能回答问题，来评估语言理解能力挑战数据集的性能，实验结果表明，很多问题并不需要语法复杂的推理，为了精准评估 MRC 数据集，需要在设计时额外注意。

Nov, 2019

首届中文机器阅读理解评测数据集

本文提出了一种新的中文阅读理解数据集 —— 包括选择题和用户问题阅读理解，并且是人工验证和隐藏测试集的大规模训练数据。同时，还举办了首届中文机器阅读理解评估（CMRC-2017），成功吸引了数十名参与者。

Sep, 2017

CJRC: 一个可靠的人工标注中文司法阅读理解基准数据集

本研究介绍了一个含有近 10K 文档和近 50K 个问题及其答案的中国司法阅读理解 (CJRC) 数据集，基于 Bert 和 BiDAF 构建了两个强基准模型，实验结果显示与人工标注员的表现相比仍有进步的空间。该数据集可用于司法领域中元素提取的机器阅读理解技术研究。

Dec, 2019

ReCoRD: 人机常识阅读理解之桥

本文介绍了一种称为 ReCoRD 的大型数据集，并在此基础上展示了机器阅读理解需要常识推理，即目前最先进的 MRC 系统表现远远落后于人类，因此该数据集为未来的研究提供了一个挑战，以弥合人类和现有机器的常识阅读理解之间的差距。

Oct, 2018

一份中文机器阅读理解句子填空数据集

本文提出了一个新的任务 —— 句子填空式机器阅读理解，并构建了一个 Chinese dataset called CMRC 2019 来衡量该任务的难度。结果表明，目前先进的预训练模型仍然无法达到人类的水平。

Apr, 2020

IIRC：一个包含不完整信息阅读理解问题的数据集

本研究提供了一个名为 IIRC 的数据集，其中包含超过 13K 个来自英文维基百科段落的问题，并且这些问题只提供了部分信息以回答，丢失的信息出现在一个或多个链接的文档中。使用众包工作者编写问题，使得此数据集中的问题与答案出现的上下文表述差异大，包括许多需要离散推理的问题，难度较高。通过构建一种基准模型评测模型在该任务上的表现，本研究发现，该模型在 F1 得分上的表现为 31.1％，而人类性能则为 88.4％。

Nov, 2020

大规模阅读理解下的医学体检问题解答

该研究提出了一个名为 MedQA 的问答任务，使用大规模文档集中的知识研究临床医学中的问题解答。提出了一种基于 LSTM 网络和双路径注意力架构的模块化端到端阅读理解模型 SeaReader，其具有从两个角度建模信息流和同时读取和整合多篇文档的能力。实验证明，SeaReader 在 MedQA 上比竞争模型实现了大幅提高，同时开发了一系列新技术以展示 SeaReader 问题解答过程的解释。

Feb, 2018

LogiQA：面向机器阅读理解的逻辑推理挑战数据集

通过构建名为 LogiQA 的全面数据集，了解了人类逻辑推理能力方面的基本能力在机器阅读中如何得到充分研究。结果表明，最先进的神经模型远不及人类的水平。其数据集也可作为深度学习 NLP 环境下重新研究逻辑 AI 的基准。

Jul, 2020