GooAQ: 多样答案类型的开放式问答
该研究提出了一个名为 SearchQA 的数据集,该数据集用于机器理解和问答,并通过从 J! Archive 爬取的现有问题-答案配对及 Google 检索的文本片段进行扩充。在 SearchQA 中,包含了 14 万个问题-答案对,每个对平均包含 49.6 个片段。使用人类评估以及两种基准方法进行测试,研究显示了人类和机器表现之间的显著差距,表明所提出的数据集可作为问答的基准。
Apr, 2017
介绍一个包含生产用户问题数据集的基于WikiAnswers平台的ComQA数据集,包含11,214个问题,涵盖了组成性的、时间推理和比较等不同挑战方面。该数据集通过大规模众包清理问题、分组和注释,以及分析数据集和现有系统对其的结果,对QA领域未来的研究提供了驱动作用。
Sep, 2018
我们提出了TyDi QA——一个问答数据集,涵盖11种语言,并进行数据质量的量化分析和例级定性语言分析,以提供有关多语言建模的有挑战性和值得信赖的评估。
Mar, 2020
HybridQA是一个基于异构信息的新的大规模问答数据集,通过对表格和文本信息的聚合完成问答,结果表明使用异构信息的混合模型可以获得高于基准模型的精确度。
Apr, 2020
本文的主要研究领域是关于自动问答,重点介绍了知识图谱、非结构化文本和混合语料库等来源的家族算法,并讨论了每个子主题中涉及的复杂性问题和系统中介绍的可解释性和互动性程度,最后总结了QA领域的最具前景的新兴趋势。
Apr, 2020
研究跨语言建模的进展取决于具有挑战性、真实性和多样性的评估集。本文提出了一种开放领域的问题回答评估集“Multilingual Knowledge Questions and Answers”(MKQA),包括10k个问题-答案对,跨越26种语言(总计260k个问题-答案对)。结果表明,即使在英语中,这个数据集也具有挑战性,尤其是在低资源语言中。
Jul, 2020
介绍可能会被问到的问题(PAQ)等资源,提出一种新的QA-pair检索程序(RePAQ),为CBQA模型的训练提供了更多的知识库,并表明利用Retrieval机制的效果要优于直接从文本语料库中提取答案的方法,但需要权衡速度和准确性。
Feb, 2021
本文介绍了ParaQA数据集,它是一个用于基于知识图谱单轮会话的多重释义响应问答(QA)数据集。ParaQA数据集包含5000个问题-答案对,每个问题有2至8个不同的释义响应。我们提供了基准模型,并通过BLEU和METEOR等常用度量表说明了具有多个释义响应的优势。 ParaQA数据集可在一个持续的URI上公开获得,以便在研究社区中广泛使用和适应。
Mar, 2021
TANQ是第一个需要从多个源中提取信息构建表格作为答案的开放领域问题回答数据集,我们在开放、正式和闭卷的场景中使用顶尖的语言模型进行评测,最好的基准模型GPT4的综合F1得分为29.1,相较于人类表现差了19.7个百分点,我们分析了在这个任务中所需的不同技能以及模型生成答案的常见失败,指出TANQ是一个具有许多挑战的复杂任务。
May, 2024
通过介绍CaLMQA,一个涵盖23种语言的2.6K多样化问题集,我们发现大型语言模型在生成复杂问题的长篇答案时在某些低资源语言方面的质量明显下降,这突显了LLM多语言能力和非英语长篇问题回答评估中进一步研究的需求。
Jun, 2024