SearchQA：一份由搜索引擎中加强了语境的新问答数据集

Apr, 2017

SearchQA：一份由搜索引擎中加强了语境的新问答数据集

SearchQA: A New Q&A Dataset Augmented with Context from a Search Engine

Matthew Dunn, Levent Sagun, Mike Higgins, V. Ugur Guney, Volkan Cirik...

TL;DR该研究提出了一个名为 SearchQA 的数据集，该数据集用于机器理解和问答，并通过从 J! Archive 爬取的现有问题 - 答案配对及 Google 检索的文本片段进行扩充。在 SearchQA 中，包含了 14 万个问题 - 答案对，每个对平均包含 49.6 个片段。使用人类评估以及两种基准方法进行测试，研究显示了人类和机器表现之间的显著差距，表明所提出的数据集可作为问答的基准。

Abstract

We publicly release a new large-scale dataset, called SearchQA, for machine comprehension, or question-answering. Unlike recently released datasets, such as DeepMind CNN/DailyMail and SQuAD, the proposed SearchQA

machine comprehension question-answering dataset google j! archive

发现论文，激发创造

NewsQA: 一个机器阅读理解数据集

为了增加推理能力，我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA，该数据集超过 100,000 个 QA 对，由众包工人提供，答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好，这表明未来的研究可以在 NewsQA 上取得显著的进展。

Nov, 2016

上下文问答

本研究提出了一种基于对话的问答数据集 QuAC，其包含 14K 个信息寻求问答对话（共 100K 个问题），并且 QuAC 针对其他机器理解数据集中未发现的挑战进行了改进。我们在详细的定性评估中表明，QuAC 的问题通常更具开放性、难以回答或仅在对话上下文中有意义，还报告了许多参考模型的结果，包括最近被扩展为对话上下文模型的最先进的阅读理解体系结构。但是我们最好的模型仍然比人类表现差了 20 个 F1，这表明还有很大的未来工作空间。

Aug, 2018

CCQA：用于模型预训练的新型 Web 规模问答数据集

本文提出一种在 Common Crawl 项目的基础上，使用大规模、自然、多样化问答数据集进行领域内预训练的方法，该方法可以用于 open-domain question-answering 任务中的零样本、低资源和微调设置，展示了预训练在该任务中的潜力。

Oct, 2021

CodeQA: 一个面向源代码理解的问答数据集

提出了 CodeQA，一个免费的自由格式问题回答数据集，旨在实现源代码理解：给定代码片段和问题，需要生成文本答案。包含 119,778 个 Java 问题 - 答案对和 70,085 个 Python 问题 - 答案对的 CodeQA 数据集。通过语法规则和语义分析将代码注释转换为问题 - 答案对。对数据集进行了系统分析，并展示了几个神经网络的实验结果。尽管关于问题回答和机器阅读理解的研究发展迅速，但很少有先前的工作关注代码问题回答。这个新数据集可以作为源代码理解研究的有用基准。

Sep, 2021

TriviaQA：一个大规模远程监督的挑战性阅读理解数据集

TriviaQA 是一个具有挑战性的阅读理解数据集，包含超过 650k 个问题 - 答案 - 证据三元组，该数据集需要进行跨句子推理和包含看似复杂、组合式、句法和词汇变化巨大的问题，并提供了两种基线算法：基于特征的分类器和最先进的神经网络，它们在 SQuAD 阅读理解上表现良好，但都无法接近人类表现（23％和 40％与 80％），因此需要进一步的研究。

May, 2017

SelQA: 基于选项的问答新基准

本篇论文提出了一个新的选择题型问答数据集 SelQA，该数据集通过众包生成问题，并从英文维基百科中提取十个最常见主题的长度为答案。我们介绍了一种语料库注释方案，旨在通过明确减少问题和答案之间的词共现来增强生成大型、多样化和具有挑战性的数据集的过程。在回答句子选择和回答触发任务上，我们比较了几个系统，为未来的工作提供了强有力的基准结果。

Jun, 2016

用于开放领域事实性问题回答的数据集和神经循环序列标注模型

本文提出一个大规模的人工标注真实世界 QA 数据集 WebQA，通过序列标注模型将神经 QA 视为序列标注问题，与现有神经 QA 方法相比，性能大幅度提高，F1 得分为 74.69％。

Jul, 2016

SQuAD: 文本机器理解 10 万 + 问题

本研究介绍了 Stanford Question Answering Dataset (SQuAD)，一种包含超过 100,000 个问题的阅读理解数据集，旨在研究回答这些问题所需要的类型推理方式，研究使用依赖和组成树建立了强大的逻辑回归模型，并在数据集上获得了 51.0% 的 F1 分数。

Jun, 2016

SituatedQA: 将额外的语境纳入 QA 中

本研究提出了一个开放式检索问答数据集 SituatedQA，旨在研究在不同时间和地点提出相同问题的语境下，答案是否会发生变化。通过构建该数据集并对现有模型进行实验，发现模型对于更新频繁或少见地点的答案产生困难，同时模型对于过去采集的数据无法在新问答中适应，因此建议将 extra-linguistic context 纳入开放式检索 QA 评估标准中。

Sep, 2021

ReviewQA：一个基于关系和方面的意见阅读数据集

本文介绍了一种基于酒店评论的问题回答数据集 ReviewQA，旨在评估模型的关联理解和能力，并提供了几种基线模型的实现。

Oct, 2018