DEXTER：使用 LLMs 进行开放域复杂问题回答的基准测试

Jun, 2024

DEXTER：使用 LLMs 进行开放域复杂问题回答的基准测试

DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs

Venktesh V. Deepali Prabhu, Avishek Anand

TL;DR通过建立一个包含多样化复杂问答任务的基准以及提供工具包，在开放领域环境中评估先进的预训练密集和稀疏检索模型，本研究旨在解决开放领域复杂问答中证据检索和推理的挑战。我们观察到晚期交互模型和词汇模型（如 BM25）表现较好，此外，我们还评估了 LLMs 的推理能力以及检索性能对其推理能力的影响，通过实验证实，要改进复杂问答的下游性能，还有很多待办之事。

Abstract

open-domain complex question answering (QA) is a difficult task with challenges in evidence retrieval and reasoning. The complexity of such questions could stem from questions being compositional, hybrid evidence

open-domain complex question answering evidence retrieval reasoning capabilities benchmark retrieval performance

发现论文，激发创造

DIVKNOWQA: 通过知识库和文本进行开放领域问答评估 LLM 的推理能力

大型语言模型在生成能力方面表现出色，但当仅依赖其内部知识时，容易出现幻觉，尤其是在回答需要不太常见的信息的问题时。基于检索的大型语言模型已经成为将其与外部知识结合的潜在解决方案，然而，最近的方法主要强调从非结构化文本语料库进行检索，忽视了底层结构。此外，当前领域存在一个显著的差距，即缺乏对异构知识源（如知识库和文本）上的大型语言模型进行有效定位的实际基准数据集。为了填补这一空白，我们精心策划了一个综合数据集，提出了两个独特挑战：（1）需要从开放域结构化和非结构化的知识源中检索信息的两跳多源问题，正确回答问题需要从结构化知识源中检索信息；（2）符号化查询（例如用于 Wikidata 的 SPARQL）的生成是一个关键要求，增加了额外的挑战。我们的数据集通过预定义的推理链自动生成和人工注释相结合的方式创建，我们还引入了一种新颖的方法，利用多个检索工具，包括文本段落检索和符号化语言辅助检索。我们的模型在解决上述推理挑战方面优于以往的方法。

Oct, 2023

BeamSearchQA: 大型语言模型是强大的零样本问答求解器

本研究提出了一个名为 BeamSearchQA 的新型问题回答管道，它通过使用大型语言模型迭代地生成关于原始问题的新问题，从而启用一个迭代推理过程，以便更好地捕捉和利用隐藏知识。实验结果表明，BeamSearchQA 明显优于其他零 - shot 基线，在处理开放性领域问题回答方面具有很强的有效性。

May, 2023

利用大型语言模型的多角色能力进行面向开放领域的问答

开放领域问答（ODQA）作为信息系统中的关键研究领域已经崛起。现有方法采用两种主要范式来收集证据：（1）“先检索然后阅读” 范式从外部语料库中检索相关文档；（2）“先生成然后阅读” 范式使用大型语言模型（LLMs）生成相关文档。然而，两者都无法完全满足证据的多方面需求。因此，本文提出了 LLMQA，一种通用框架，将 ODQA 过程分为三个基本步骤：查询扩展、文档选择和答案生成，结合了基于检索和基于生成的证据的优势。由于 LLMs 展示了在各种任务中表现出的出色能力，我们在框架中指导 LLMs 担任多个角色，作为生成器、重新排序器和评估器，集成它们在 ODQA 过程中的协作。此外，我们引入了一种新颖的提示优化算法，以改进角色扮演提示，引导 LLMs 生成更高质量的证据和答案。在广泛使用的基准测试（NQ、WebQ 和 TriviaQA）上进行的大量实验结果表明，LLMQA 在答案准确性和证据质量方面达到了最佳表现，展示了其推进 ODQA 研究和应用的潜力。

Mar, 2024

强化大型语言模型在工业领域特定问题回答上的表现

本研究提供了一个基于微软产品和技术问题的产业特定 QA 知识的检测基准 MSQA，旨在评估旨在提高 LLM 领域特定能力的方法。此外，我们提出了一种新的模型交互范式，可以使 LLM 在不熟练的领域特定任务上实现更好的性能。实验表明，遵循我们的模型融合框架的方法优于常用的检索方法的 LLM。

May, 2023

在大语言模型时代评估开放领域问答

通过人工评估，我们发现使用 InstructGPT 在 NQ-open 取得了新的最优结果，且所有模型的真实性能均被显著低估，同时超过 50％的词汇匹配失败归因于意义相当的答案，正则匹配排名与人类判断一致

May, 2023

自适应 - RAG: 通过问题复杂性学习适应检索增强大型语言模型

本研究提出了一个新颖的适应性问答框架，可以根据查询的复杂性动态选择最合适的策略，该策略可在回答问题时无缝地在迭代和单步检索增强型大型语言模型之间进行调整，同时适应多种查询复杂性，提高问答系统的效率和准确性。

Mar, 2024

半结构领域中的检索辅助思维链

本研究通过利用法律和金融数据的半结构化特点，实现有效检索相关背景知识来解决将现有问答系统应用于法律和金融等专业领域所面临的挑战，使得大型语言模型在领域特定的问答任务中表现优异，同时提供有用的答案解释，鼓励将大型语言模型整合到未来的法律和金融自然语言处理系统中进行研究。

Oct, 2023

合并生成和检索知识的开放领域问答

基于知识兼容性匹配的 COMBO 框架能够有效地利用两种信息源，改善开放领域的问答性能，并在四项测试问答基准中有三个的竞争对手表现更好，特别在存在较高程度知识冲突的场景中表现出更大的功效。

Oct, 2023

面向开放域问答的自我提示大语言模型

本文提出了一种基于大型语言模型的自我点拨框架 (Self-Prompting framework)，使得在开放域下的问答任务 (Open-Domain Question Answering) 可以在不需要训练数据和外部知识库的情况下实现，采用该方法在三个广泛使用的 ODQA 数据集上，实验结果优于之前的最先进方法，在 EM 指标上平均提高了 8.8 个百分点，并且能够实现与多种检索增强的微调模型相比较的性能。

Dec, 2022

复杂问答与语言模型的混合架构，调研

本文回顾了混合语言模型在复杂问答（QA，CQA，CPS）中架构和策略的最新进展，指出了提高 LLM 在处理背景知识、安全数据保护、解释性等方面的方法，并探讨了与复杂 QA 相关的挑战及当前解决方案和发展趋势。

Feb, 2023