Quasar: 通过搜索和阅读获取问题回答的数据集

Jul, 2017

Quasar: 通过搜索和阅读获取问题回答的数据集

Quasar: Datasets for Question Answering by Search and Reading

Bhuwan Dhingra, Kathryn Mazaitis, William W. Cohen

TL;DR该研究提出了两个数据集，用于评估自然语言查询的理解和从大量文本语料库中提取答案的系统。Quasar-S 数据集由 37000 个填空式查询构成，Quasar-T 数据集由 43000 个开放领域的问答问题和它们的答案组成。我们将这些数据集作为事实型问题回答的两个相关子任务的挑战，并评估了几个基线模型，并显示它们在 Quasar-S 和 - T 方面落后于人类表现 16.4％和 32.1％。

Abstract

We present two new large-scale datasets aimed at evaluating systems designed to comprehend a natural language query and extract its answer from a large corpus of text. The quasar-s dataset consists of 37000 cloze-style (fill-in-the-gap) queries constructed from definitions of software

natural language processing cloze-style queries factoid question answering quasar-s dataset quasar-t dataset

发现论文，激发创造

TriviaQA：一个大规模远程监督的挑战性阅读理解数据集

TriviaQA 是一个具有挑战性的阅读理解数据集，包含超过 650k 个问题 - 答案 - 证据三元组，该数据集需要进行跨句子推理和包含看似复杂、组合式、句法和词汇变化巨大的问题，并提供了两种基线算法：基于特征的分类器和最先进的神经网络，它们在 SQuAD 阅读理解上表现良好，但都无法接近人类表现（23％和 40％与 80％），因此需要进一步的研究。

May, 2017

一个基于研究论文的信息查找问题和答案数据集

本文介绍了 QASPER（一个基于自然语言处理论文的问题数据集），旨在提醒需要收集反映多部分论文主张的复杂推理难度的数据，以利于构建支持文档查找的问答系统。

May, 2021

SQuAD: 文本机器理解 10 万 + 问题

本研究介绍了 Stanford Question Answering Dataset (SQuAD)，一种包含超过 100,000 个问题的阅读理解数据集，旨在研究回答这些问题所需要的类型推理方式，研究使用依赖和组成树建立了强大的逻辑回归模型，并在数据集上获得了 51.0% 的 F1 分数。

Jun, 2016

上下文问答

本研究提出了一种基于对话的问答数据集 QuAC，其包含 14K 个信息寻求问答对话（共 100K 个问题），并且 QuAC 针对其他机器理解数据集中未发现的挑战进行了改进。我们在详细的定性评估中表明，QuAC 的问题通常更具开放性、难以回答或仅在对话上下文中有意义，还报告了许多参考模型的结果，包括最近被扩展为对话上下文模型的最先进的阅读理解体系结构。但是我们最好的模型仍然比人类表现差了 20 个 F1，这表明还有很大的未来工作空间。

Aug, 2018

SearchQA：一份由搜索引擎中加强了语境的新问答数据集

该研究提出了一个名为 SearchQA 的数据集，该数据集用于机器理解和问答，并通过从 J! Archive 爬取的现有问题 - 答案配对及 Google 检索的文本片段进行扩充。在 SearchQA 中，包含了 14 万个问题 - 答案对，每个对平均包含 49.6 个片段。使用人类评估以及两种基准方法进行测试，研究显示了人类和机器表现之间的显著差距，表明所提出的数据集可作为问答的基准。

Apr, 2017

QUADRo: 问题 - 答案数据库检索的数据集和模型

本文提出了一种基于神经信息检索和重新排名的自动问答系统，利用包含 6.3M 问题和回答对的数据库，实现了开放域问答并超越了传统的非结构化文本或图形搜索方法，并证明了基于 Transformer 模型的 (q,a) 对比仅考虑问题表示更优，该方法具有和在 BING 搜索引擎上构建的 QA 系统竞争的优点。

Mar, 2023

简单有效的半监督问答

本研究提出一种利用基础文档和少量标注数据进行深度学习提取式问答的方法，并通过对三个不同领域数据集的实验验证了其有效性。

Apr, 2018

NewsQA: 一个机器阅读理解数据集

为了增加推理能力，我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA，该数据集超过 100,000 个 QA 对，由众包工人提供，答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好，这表明未来的研究可以在 NewsQA 上取得显著的进展。

Nov, 2016

ClarQ：一个大规模且多样化的澄清问题生成数据集

通过基于自监督的新型启动框架，从 stackexchange 中提取 post-comment 元组，利用神经网络分类器构建了一个多样化、大规模的澄清问题数据集。将该数据集应用于问题回答的下游任务的实验表明其效用，并放出名为 ClarQ 的含 173 个领域的 2M 个实例的数据集。其目的是促进澄清问题生成的研究，以提升对话和问题回答系统。

Jun, 2020

基于规则的开放域问答系统在 SQuAD v2.0 数据集上的设计与开发

本研究提出了一种基于规则的开放域问答系统，可以回答来自相关上下文的任何领域的问题，使用 1000 个问题的 SQuAD 2.0 数据集测试开发的系统表现满意，同时分析了性能。

Mar, 2022