FanOutQA：大型语言模型的多跳、多文档问答

ACLFeb, 2024

FanOutQA：大型语言模型的多跳、多文档问答

FanOutQA: Multi-Hop, Multi-Document Question Answering for Large Language Models

Andrew Zhu, Alyssa Hwang, Liam Dugan, Chris Callison-Burch

TL;DR通过创建 FanOutQA 数据集以及进行评估测试，研究发现当处理复杂的多文档依赖关系时，当代的语言模型如 GPT-4、LLaMA 2、Claude-2.1 和 Mixtral-8x7B 仍存在推理能力的提升空间。

Abstract

One type of question that is commonly found in day-to-day scenarios is ``fan-out'' questions, complex multi-hop, multi-document reasoning questions that require finding information about a large number of entities. However, there exist few resources to evaluate this type of question-an

fan-out questions multi-hop reasoning multi-document reasoning fanoutqa dataset benchmark settings

发现论文，激发创造

通过多跳问答数据集和伪指导调整实现大型语言模型的鲁棒性时序推理

本文提出了一个复杂的时间问答（QA）数据集 Complex-TR，重点关注多答案和多跳的时间推理，并提出了一种新颖的数据增强策略来改善大型语言模型（LLMs）的复杂时间推理能力和鲁棒性。实验证明，我们的方法能够显著提高 LLMs 在时间 QA 基准测试上的性能。

Nov, 2023

多跳问答与生成综述

本文提出了一个多跳问题回答（Multi-Hop QA）的具体与形式化定义，并对现有的 Multi-Hop QA 框架进行了组织和总结，同时介绍了创建多跳问题回答数据集的最佳方法，以系统全面地介绍这个有趣而具有挑战性的任务。

Apr, 2022

使用少量数据合成实现高效的开放领域多跳问答

本文提出了一种基于借助少于 10 个人工标注的问题答案对进行改进较小的语言模型的多跳问答数据合成框架，经过句子等数据集测试实验，证明此框架可以显著提高运行效率并具有较好的准确性。

May, 2023

BeamSearchQA: 大型语言模型是强大的零样本问答求解器

本研究提出了一个名为 BeamSearchQA 的新型问题回答管道，它通过使用大型语言模型迭代地生成关于原始问题的新问题，从而启用一个迭代推理过程，以便更好地捕捉和利用隐藏知识。实验结果表明，BeamSearchQA 明显优于其他零 - shot 基线，在处理开放性领域问题回答方面具有很强的有效性。

May, 2023

MoreHopQA: 超越多跳推理

将现有的多跳数据集从抽取性答案转变为生成性答案，通过添加常识、算术和符号推理等问题层次，我们创建了一个新的多跳数据集 MoreHopQA，以评估五个大型语言模型，并发现相较于以往的数据集，我们的数据集更具挑战性，其中部分问题分解的分析表明虽然模型可以正确回答问题，但只有某个部分实现了完美推理。

Jun, 2024

MRKE: 基于知识编辑的 LLMs 的多跳推理评估

利用修改的 HotpotQA 数据集为基础，我们引入了第一个基于新的无与伦比的知识的 LLM 多跳问答评估基准，并注释和评估了形式为子问题和中间答案的推理链，以此促进对 LLM 在多跳问答任务上的可信评估的发展。

Feb, 2024

询问以理解：多跳问答问题生成

本文提出了一种基于问题生成的新型多跳问答方法，通过精心设计端到端的 QG 模块，在上下文理解中提出内在逻辑子问题，从而继承了 QD 方法的可解释性并表现出较高的性能。实验证明，我们提出的 QG 模块是有效的，在流畅性、一致性和多样性方面优于 QD 方法，并获得了人工评估的定量可解释性。

Mar, 2022

通过工具之间的对话和高效微调大型语言模型进行多模式多跳问答

我们采用一种工具交互的分治策略，使大型语言模型能够回答复杂的多模式多跳问题，并以预定义的工具集中的适当工具回答单模式单跳子问题。通过生成工具交互分治数据集并对相应的语言模型进行高效微调，我们增加了大型语言模型的推理能力。实验分析表明，相比现有的最先进解决方案，我们的策略显著改进了两个最近引入的复杂问答数据集上的效果，表明我们策略的功效和普适性。

Sep, 2023

利用大型语言模型的多角色能力进行面向开放领域的问答

开放领域问答（ODQA）作为信息系统中的关键研究领域已经崛起。现有方法采用两种主要范式来收集证据：（1）“先检索然后阅读” 范式从外部语料库中检索相关文档；（2）“先生成然后阅读” 范式使用大型语言模型（LLMs）生成相关文档。然而，两者都无法完全满足证据的多方面需求。因此，本文提出了 LLMQA，一种通用框架，将 ODQA 过程分为三个基本步骤：查询扩展、文档选择和答案生成，结合了基于检索和基于生成的证据的优势。由于 LLMs 展示了在各种任务中表现出的出色能力，我们在框架中指导 LLMs 担任多个角色，作为生成器、重新排序器和评估器，集成它们在 ODQA 过程中的协作。此外，我们引入了一种新颖的提示优化算法，以改进角色扮演提示，引导 LLMs 生成更高质量的证据和答案。在广泛使用的基准测试（NQ、WebQ 和 TriviaQA）上进行的大量实验结果表明，LLMQA 在答案准确性和证据质量方面达到了最佳表现，展示了其推进 ODQA 研究和应用的潜力。

Mar, 2024

DIVKNOWQA: 通过知识库和文本进行开放领域问答评估 LLM 的推理能力

大型语言模型在生成能力方面表现出色，但当仅依赖其内部知识时，容易出现幻觉，尤其是在回答需要不太常见的信息的问题时。基于检索的大型语言模型已经成为将其与外部知识结合的潜在解决方案，然而，最近的方法主要强调从非结构化文本语料库进行检索，忽视了底层结构。此外，当前领域存在一个显著的差距，即缺乏对异构知识源（如知识库和文本）上的大型语言模型进行有效定位的实际基准数据集。为了填补这一空白，我们精心策划了一个综合数据集，提出了两个独特挑战：（1）需要从开放域结构化和非结构化的知识源中检索信息的两跳多源问题，正确回答问题需要从结构化知识源中检索信息；（2）符号化查询（例如用于 Wikidata 的 SPARQL）的生成是一个关键要求，增加了额外的挑战。我们的数据集通过预定义的推理链自动生成和人工注释相结合的方式创建，我们还引入了一种新颖的方法，利用多个检索工具，包括文本段落检索和符号化语言辅助检索。我们的模型在解决上述推理挑战方面优于以往的方法。

Oct, 2023