GooAQ: 多样答案类型的开放式问答

Apr, 2021

GooAQ: Open Question Answering with Diverse Answer Types

Daniel Khashabi, Amos Ng, Tushar Khot, Ashish Sabharwal, Hannaneh Hajishirzi...

TL;DR介绍了一个包含各种答案类型的大规模数据集 GooAQ, 包括从 Google 自动获取的超过 500 万个问题和 300 万个答案。该数据集可用于改善问答的多样响应类型，并通过对 GooAQ 进行了基准测试表明，针对长答案问题的模型质量主要由模型的预训练支持。

Abstract

While day-to-day questions come with a variety of answer types, the current question-answering (QA) literature has failed to adequately address the answer diversity of questions. To this end, we present

发现论文，激发创造

SearchQA：一份由搜索引擎中加强了语境的新问答数据集

该研究提出了一个名为 SearchQA 的数据集，该数据集用于机器理解和问答，并通过从 J! Archive 爬取的现有问题-答案配对及 Google 检索的文本片段进行扩充。在 SearchQA 中，包含了 14 万个问题-答案对，每个对平均包含 49.6 个片段。使用人类评估以及两种基准方法进行测试，研究显示了人类和机器表现之间的显著差距，表明所提出的数据集可作为问答的基准。

Apr, 2017

ComQA: 一个社区资源的复杂事实问题问答数据集，包含释义聚类

介绍一个包含生产用户问题数据集的基于WikiAnswers平台的ComQA数据集，包含11,214个问题，涵盖了组成性的、时间推理和比较等不同挑战方面。该数据集通过大规模众包清理问题、分组和注释，以及分析数据集和现有系统对其的结果，对QA领域未来的研究提供了驱动作用。

Sep, 2018

TyDi QA: 基于语言类型多样性的信息搜索问答基准

我们提出了TyDi QA——一个问答数据集，涵盖11种语言，并进行数据质量的量化分析和例级定性语言分析，以提供有关多语言建模的有挑战性和值得信赖的评估。

Mar, 2020

HybridQA: 表格和文本数据的多跳问答数据集

HybridQA是一个基于异构信息的新的大规模问答数据集，通过对表格和文本信息的聚合完成问答，结果表明使用异构信息的混合模型可以获得高于基准模型的精确度。

Apr, 2020

基于筛选和开放网络资源的问答系统

本文的主要研究领域是关于自动问答，重点介绍了知识图谱、非结构化文本和混合语料库等来源的家族算法，并讨论了每个子主题中涉及的复杂性问题和系统中介绍的可解释性和互动性程度，最后总结了QA领域的最具前景的新兴趋势。

Apr, 2020

MKQA：面向多语言开放域问题回答的语言多样性基准测试

研究跨语言建模的进展取决于具有挑战性、真实性和多样性的评估集。本文提出了一种开放领域的问题回答评估集“Multilingual Knowledge Questions and Answers”（MKQA），包括10k个问题-答案对，跨越26种语言（总计260k个问题-答案对）。结果表明，即使在英语中，这个数据集也具有挑战性，尤其是在低资源语言中。

Jul, 2020

PAQ: 6500万可疑问题及其应用

介绍可能会被问到的问题（PAQ）等资源，提出一种新的QA-pair检索程序（RePAQ），为CBQA模型的训练提供了更多的知识库，并表明利用Retrieval机制的效果要优于直接从文本语料库中提取答案的方法，但需要权衡速度和准确性。

Feb, 2021

ParaQA: 单轮问答对话的同义答案问答数据集

本文介绍了ParaQA数据集，它是一个用于基于知识图谱单轮会话的多重释义响应问答（QA）数据集。ParaQA数据集包含5000个问题-答案对，每个问题有2至8个不同的释义响应。我们提供了基准模型，并通过BLEU和METEOR等常用度量表说明了具有多个释义响应的优势。 ParaQA数据集可在一个持续的URI上公开获得，以便在研究社区中广泛使用和适应。

Mar, 2021

TANQ: 一个开放领域的表格问答数据集

TANQ是第一个需要从多个源中提取信息构建表格作为答案的开放领域问题回答数据集，我们在开放、正式和闭卷的场景中使用顶尖的语言模型进行评测，最好的基准模型GPT4的综合F1得分为29.1，相较于人类表现差了19.7个百分点，我们分析了在这个任务中所需的不同技能以及模型生成答案的常见失败，指出TANQ是一个具有许多挑战的复杂任务。

May, 2024

CaLMQA: 跨23种语言探索跨文化特定长篇问答

通过介绍CaLMQA，一个涵盖23种语言的2.6K多样化问题集，我们发现大型语言模型在生成复杂问题的长篇答案时在某些低资源语言方面的质量明显下降，这突显了LLM多语言能力和非英语长篇问题回答评估中进一步研究的需求。

Jun, 2024