上下文问答

EMNLPAug, 2018

QuAC : Question Answering in Context

Eunsol Choi, He He, Mohit Iyyer, Mark Yatskar, Wen-tau Yih...

TL;DR本研究提出了一种基于对话的问答数据集 QuAC，其包含 14K 个信息寻求问答对话（共 100K 个问题），并且 QuAC 针对其他机器理解数据集中未发现的挑战进行了改进。我们在详细的定性评估中表明，QuAC 的问题通常更具开放性、难以回答或仅在对话上下文中有意义，还报告了许多参考模型的结果，包括最近被扩展为对话上下文模型的最先进的阅读理解体系结构。但是我们最好的模型仍然比人类表现差了 20 个 F1，这表明还有很大的未来工作空间。

Abstract

We present QuAC, a dataset for question answering in context that contains 14K information-seeking QA dialogs (100K questions in total). T

question answering context dataset machine comprehension reading comprehension

发现论文，激发创造

CoQA: 一项面向对话的问题回答挑战

本篇论文提出了一种建立对话式问答系统的新数据集 CoQA，包含来自七个不同领域的 8,000 个对话中 127,000 个具有答案的问题，分析表明，这些问题比现有的阅读理解数据集具有更多挑战性和难点，需要针对性的解决方案，评测结果显示目前最好的系统 F1 得分为 65.4％，仍然有大量的改进空间。

Aug, 2018

SearchQA：一份由搜索引擎中加强了语境的新问答数据集

该研究提出了一个名为 SearchQA 的数据集，该数据集用于机器理解和问答，并通过从 J! Archive 爬取的现有问题 - 答案配对及 Google 检索的文本片段进行扩充。在 SearchQA 中，包含了 14 万个问题 - 答案对，每个对平均包含 49.6 个片段。使用人类评估以及两种基准方法进行测试，研究显示了人类和机器表现之间的显著差距，表明所提出的数据集可作为问答的基准。

Apr, 2017

会话问答内容理解的实证研究

该论文研究基于对话问答模型中标准数据集对模型的语义理解能力的反应度以及对话内容对模型回答问题的影响，并指出了 QuAC 和 CoQA 两个常用数据集的一些潜在问题及其存在的偏见。

Sep, 2019

NewsQA: 一个机器阅读理解数据集

为了增加推理能力，我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA，该数据集超过 100,000 个 QA 对，由众包工人提供，答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好，这表明未来的研究可以在 NewsQA 上取得显著的进展。

Nov, 2016

SQuAD: 文本机器理解 10 万 + 问题

本研究介绍了 Stanford Question Answering Dataset (SQuAD)，一种包含超过 100,000 个问题的阅读理解数据集，旨在研究回答这些问题所需要的类型推理方式，研究使用依赖和组成树建立了强大的逻辑回归模型，并在数据集上获得了 51.0% 的 F1 分数。

Jun, 2016

CoQA、SQuAD 2.0 和 QuAC 的定性比较

本文比较了三个新的问答数据集：SQuAD 2.0、QuAC 和 CoQA，在新特性（如无法回答的问题、多轮交互和摘要回答）方面进行了比较，并展示了这些数据集提供了互补性的覆盖率，但在回答的摘要方面覆盖率较弱。作者表明，由于数据集的结构相似，可以很容易地将单个选取模型适应于任何数据集，并展示了 SQuAD 2.0 和 CoQA 上的改进基线结果。尽管相似，但在一个数据集上训练的模型对另一个数据集是无效的，但我们通过预训练找到了适量的性能提升。为了鼓励交互评估，我们在此 https URL 上公开了数据集转换的代码。

Sep, 2018

QAConv：信息交流的问答

该研究介绍了 QAConv，这是一个新的基于对话的问题回答（QA）数据集，通过长、复杂、异步和涉及强领域知识的信息型对话提供了一个新的训练和评估测试平台来促进 QA 在对话研究中的应用。

May, 2021

TriviaQA：一个大规模远程监督的挑战性阅读理解数据集

TriviaQA 是一个具有挑战性的阅读理解数据集，包含超过 650k 个问题 - 答案 - 证据三元组，该数据集需要进行跨句子推理和包含看似复杂、组合式、句法和词汇变化巨大的问题，并提供了两种基线算法：基于特征的分类器和最先进的神经网络，它们在 SQuAD 阅读理解上表现良好，但都无法接近人类表现（23％和 40％与 80％），因此需要进一步的研究。

May, 2017

FQuAD: 法语问答数据集

本文介绍了一种名为 FQuAD 的法语本地阅读理解数据集，并成功训练出基线模型，通过 F1 得分和准确匹配比率很好地回答了问题。同时，研究人员为追踪法语问答模型的进展提出了排行榜。

Feb, 2020

JaQuAD: 用于机器阅读理解的日语问答数据集

本文提出了 JaQuAD 数据集，它是一种由人类注释的日语问答数据集，用于非英语语言的 QA 任务的研究。该数据集由 39,696 个问题 - 答案对组成并且基于日本维基百科文章。我们针对基线模型进行微调，测试数据集上的 F1 得分为 78.92％，EM 为 63.38％。

Feb, 2022