Disfl-QA：理解问答中语调不连贯的基准数据集

ACLJun, 2021

Disfl-QA：理解问答中语调不连贯的基准数据集

Disfl-QA: A Benchmark Dataset for Understanding Disfluencies in Question Answering

Aditya Gupta, Jiacheng Xu, Shyam Upadhyay, Diyi Yang, Manaal Faruqui

TL;DR本文提出了一个新的挑战性问答数据集 Disfl-QA，其中包含有需要更全面的文本理解能力的流畅度上下文瑕疵，实验表明，现有的最先进问答模型在零样本情况下在 Disfl-QA 上的性能显著下降，但数据增强方法部分恢复了性能损失，同时也证明了使用黄金数据微调的有效性。

Abstract

disfluencies is an under-studied topic in nlp, even though it is ubiquitous in human conversation. This is largely due to the lack of datasets containing →

disfluencies nlp question answering dataset data augmentation

发现论文，激发创造

面向现实世界的口语方言问答

本文介绍了一个针对多个语言方言创建的语音问答数据集，分析了语音识别错误和方言对问答系统性能的影响，并且研究了不同用户群体的公平性问题。

Sep, 2021

现代问答数据集和基准：一项调查

本文调查了在深度学习时代发布的有影响力的问答数据集，并介绍了文本问答和视觉问答两个最常见的问答任务，涵盖了最具代表性的数据集，并提出了当前的一些 QA 研究挑战。

Jun, 2022

上下文问答

本研究提出了一种基于对话的问答数据集 QuAC，其包含 14K 个信息寻求问答对话（共 100K 个问题），并且 QuAC 针对其他机器理解数据集中未发现的挑战进行了改进。我们在详细的定性评估中表明，QuAC 的问题通常更具开放性、难以回答或仅在对话上下文中有意义，还报告了许多参考模型的结果，包括最近被扩展为对话上下文模型的最先进的阅读理解体系结构。但是我们最好的模型仍然比人类表现差了 20 个 F1，这表明还有很大的未来工作空间。

Aug, 2018

HeySQuAD：一个口语化问答数据集

本研究主要介绍了一个新的基于 HeySQuAD 数据集的 SQA 系统基准测试方法，该方法使用了包含 76k 个人类口述问题和 97k 个机器生成问题的问答数据集，证明了使用转录的口述问题进行训练可以显著提高系统的性能 (12.51%)，具有很高的实践价值。

Apr, 2023

TriviaQA：一个大规模远程监督的挑战性阅读理解数据集

TriviaQA 是一个具有挑战性的阅读理解数据集，包含超过 650k 个问题 - 答案 - 证据三元组，该数据集需要进行跨句子推理和包含看似复杂、组合式、句法和词汇变化巨大的问题，并提供了两种基线算法：基于特征的分类器和最先进的神经网络，它们在 SQuAD 阅读理解上表现良好，但都无法接近人类表现（23％和 40％与 80％），因此需要进一步的研究。

May, 2017

CoQA: 一项面向对话的问题回答挑战

本篇论文提出了一种建立对话式问答系统的新数据集 CoQA，包含来自七个不同领域的 8,000 个对话中 127,000 个具有答案的问题，分析表明，这些问题比现有的阅读理解数据集具有更多挑战性和难点，需要针对性的解决方案，评测结果显示目前最好的系统 F1 得分为 65.4％，仍然有大量的改进空间。

Aug, 2018

利用生成 NQ 类问题来改进问答

本研究提出一种算法，利用数据集转换技术从长的 Trivia 问题转化为类似于日常人类交流的较短问题的方式，自动生成自然问题（NQ）数据集中的问题，同时使用神经分类器检测并去除不合法的问题，从而生成高质量的数据集，提高了 QA 表现，该算法在低资源环境下使用，扩展了 QA 系统的规模，同时保持了训练数据的质量。

Oct, 2022

SearchQA：一份由搜索引擎中加强了语境的新问答数据集

该研究提出了一个名为 SearchQA 的数据集，该数据集用于机器理解和问答，并通过从 J! Archive 爬取的现有问题 - 答案配对及 Google 检索的文本片段进行扩充。在 SearchQA 中，包含了 14 万个问题 - 答案对，每个对平均包含 49.6 个片段。使用人类评估以及两种基准方法进行测试，研究显示了人类和机器表现之间的显著差距，表明所提出的数据集可作为问答的基准。

Apr, 2017

Quasar: 通过搜索和阅读获取问题回答的数据集

该研究提出了两个数据集，用于评估自然语言查询的理解和从大量文本语料库中提取答案的系统。Quasar-S 数据集由 37000 个填空式查询构成，Quasar-T 数据集由 43000 个开放领域的问答问题和它们的答案组成。我们将这些数据集作为事实型问题回答的两个相关子任务的挑战，并评估了几个基线模型，并显示它们在 Quasar-S 和 - T 方面落后于人类表现 16.4％和 32.1％。

Jul, 2017

用于开放领域事实性问题回答的数据集和神经循环序列标注模型

本文提出一个大规模的人工标注真实世界 QA 数据集 WebQA，通过序列标注模型将神经 QA 视为序列标注问题，与现有神经 QA 方法相比，性能大幅度提高，F1 得分为 74.69％。

Jul, 2016