NewsQA: 一个机器阅读理解数据集

Nov, 2016

NewsQA: A Machine Comprehension Dataset

Adam Trischler, Tong Wang, Xingdi Yuan, Justin Harris, Alessandro Sordoni...

TL;DR为了增加推理能力，我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA，该数据集超过 100,000 个 QA 对，由众包工人提供，答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好，这表明未来的研究可以在 NewsQA 上取得显著的进展。

Abstract

We present newsqa, a challenging machine comprehension dataset of over 100,000 human-generated →

machine comprehension question-answer pairs newsqa neural models dataset

发现论文，激发创造

SQuAD: 文本机器理解 10 万 + 问题

本研究介绍了 Stanford Question Answering Dataset (SQuAD)，一种包含超过 100,000 个问题的阅读理解数据集，旨在研究回答这些问题所需要的类型推理方式，研究使用依赖和组成树建立了强大的逻辑回归模型，并在数据集上获得了 51.0% 的 F1 分数。

Jun, 2016

SearchQA：一份由搜索引擎中加强了语境的新问答数据集

该研究提出了一个名为 SearchQA 的数据集，该数据集用于机器理解和问答，并通过从 J! Archive 爬取的现有问题 - 答案配对及 Google 检索的文本片段进行扩充。在 SearchQA 中，包含了 14 万个问题 - 答案对，每个对平均包含 49.6 个片段。使用人类评估以及两种基准方法进行测试，研究显示了人类和机器表现之间的显著差距，表明所提出的数据集可作为问答的基准。

Apr, 2017

CoQA: 一项面向对话的问题回答挑战

本篇论文提出了一种建立对话式问答系统的新数据集 CoQA，包含来自七个不同领域的 8,000 个对话中 127,000 个具有答案的问题，分析表明，这些问题比现有的阅读理解数据集具有更多挑战性和难点，需要针对性的解决方案，评测结果显示目前最好的系统 F1 得分为 65.4％，仍然有大量的改进空间。

Aug, 2018

TriviaQA：一个大规模远程监督的挑战性阅读理解数据集

TriviaQA 是一个具有挑战性的阅读理解数据集，包含超过 650k 个问题 - 答案 - 证据三元组，该数据集需要进行跨句子推理和包含看似复杂、组合式、句法和词汇变化巨大的问题，并提供了两种基线算法：基于特征的分类器和最先进的神经网络，它们在 SQuAD 阅读理解上表现良好，但都无法接近人类表现（23％和 40％与 80％），因此需要进一步的研究。

May, 2017

NewsQs: 多源信息提问

我们提供了一个名为 NewsQs (新闻提示) 的数据集，其中提供了多篇新闻文档的问题 - 回答对。通过在 News On the Web 语料库的 FAQ 样式新闻文章上对 T5-Large 模型进行微调，我们创造了 NewsQs，并自动生成了问题。我们证明，使用控制代码对模型进行微调可以生成更容易被人们接受的问题，与没有使用控制代码的相同模型相比，在人类评价中表现更好。我们使用与人类注释具有高相关性的 QNLI 模型来过滤数据。我们将我们的最终高质量问题、答案和文档聚类数据集作为资源，用于未来的基于查询的多文档摘要研究。

Feb, 2024

CodeQA: 一个面向源代码理解的问答数据集

提出了 CodeQA，一个免费的自由格式问题回答数据集，旨在实现源代码理解：给定代码片段和问题，需要生成文本答案。包含 119,778 个 Java 问题 - 答案对和 70,085 个 Python 问题 - 答案对的 CodeQA 数据集。通过语法规则和语义分析将代码注释转换为问题 - 答案对。对数据集进行了系统分析，并展示了几个神经网络的实验结果。尽管关于问题回答和机器阅读理解的研究发展迅速，但很少有先前的工作关注代码问题回答。这个新数据集可以作为源代码理解研究的有用基准。

Sep, 2021

LogiQA：面向机器阅读理解的逻辑推理挑战数据集

通过构建名为 LogiQA 的全面数据集，了解了人类逻辑推理能力方面的基本能力在机器阅读中如何得到充分研究。结果表明，最先进的神经模型远不及人类的水平。其数据集也可作为深度学习 NLP 环境下重新研究逻辑 AI 的基准。

Jul, 2020

JaQuAD: 用于机器阅读理解的日语问答数据集

本文提出了 JaQuAD 数据集，它是一种由人类注释的日语问答数据集，用于非英语语言的 QA 任务的研究。该数据集由 39,696 个问题 - 答案对组成并且基于日本维基百科文章。我们针对基线模型进行微调，测试数据集上的 F1 得分为 78.92％，EM 为 63.38％。

Feb, 2022

上下文问答

本研究提出了一种基于对话的问答数据集 QuAC，其包含 14K 个信息寻求问答对话（共 100K 个问题），并且 QuAC 针对其他机器理解数据集中未发现的挑战进行了改进。我们在详细的定性评估中表明，QuAC 的问题通常更具开放性、难以回答或仅在对话上下文中有意义，还报告了许多参考模型的结果，包括最近被扩展为对话上下文模型的最先进的阅读理解体系结构。但是我们最好的模型仍然比人类表现差了 20 个 F1，这表明还有很大的未来工作空间。

Aug, 2018

ReviewQA：一个基于关系和方面的意见阅读数据集

本文介绍了一种基于酒店评论的问题回答数据集 ReviewQA，旨在评估模型的关联理解和能力，并提供了几种基线模型的实现。

Oct, 2018