讨论链：复杂证据问题回答的多模型框架

Feb, 2024

讨论链：复杂证据问题回答的多模型框架

Chain-of-Discussion: A Multi-Model Framework for Complex Evidence-Based Question Answering

Mingxu Tao, Dongyan Zhao, Yansong Feng

TL;DR提出了一种新的讨论链框架，利用多个开源大型语言模型之间的协同作用，以提供更正确、更全面的开放式问答。

Abstract

open-ended question answering requires models to find appropriate evidence to form well-reasoned, comprehensive and helpful answers. In practical applications, models also need to engage in extended discussions on potential scenarios closely relevant to the question. With augmentation

open-ended question answering large language models chain-of-discussion framework reliable evidence selection in-depth question analysis

发现论文，激发创造

利用大型语言模型的多角色能力进行面向开放领域的问答

开放领域问答（ODQA）作为信息系统中的关键研究领域已经崛起。现有方法采用两种主要范式来收集证据：（1）“先检索然后阅读” 范式从外部语料库中检索相关文档；（2）“先生成然后阅读” 范式使用大型语言模型（LLMs）生成相关文档。然而，两者都无法完全满足证据的多方面需求。因此，本文提出了 LLMQA，一种通用框架，将 ODQA 过程分为三个基本步骤：查询扩展、文档选择和答案生成，结合了基于检索和基于生成的证据的优势。由于 LLMs 展示了在各种任务中表现出的出色能力，我们在框架中指导 LLMs 担任多个角色，作为生成器、重新排序器和评估器，集成它们在 ODQA 过程中的协作。此外，我们引入了一种新颖的提示优化算法，以改进角色扮演提示，引导 LLMs 生成更高质量的证据和答案。在广泛使用的基准测试（NQ、WebQ 和 TriviaQA）上进行的大量实验结果表明，LLMQA 在答案准确性和证据质量方面达到了最佳表现，展示了其推进 ODQA 研究和应用的潜力。

Mar, 2024

使用潜在答案进行链式问题训练以实现强韧性的多步问题回答

本文提出了一种链式问题框架，使用人工注释的问题分解含义表示训练模型生成和回答子问题，并且采用动态混合的 Hard-EM 和 MAPO 优化隐变量的子答案，相比于神经符号方法表现大幅度提升。

May, 2023

LLM 讨论：通过讨论框架和角色扮演提升大型语言模型的创造力

通过模拟从不同背景和视角的参与者中进行互动讨论来提升大型语言模型创造力，采用三阶段的 LLM 讨论框架，引入角色扮演技术，实现了创造性答案的多样性、多维度的交流，通过多项创造力度量指标超越了现有的单一和多个 LLM 框架。

May, 2024

推进大型多模型：明确的推理链与视觉问题生成

本文介绍了一种通过图像内容和文字指令进行显式推理的新方法，采用大型多模态模型（LMM），并引入了一个能够提问以获取必要知识以增强推理过程鲁棒性和可解释性的系统。实验结果表明我们的方法能够在面对模糊的视觉输入时，朝着更具鲁棒性、准确性和可解释性的 LMM 迈进。

Jan, 2024

通过异构知识的推理链进行开放域问答

提出一种新颖的开放领域问答框架，使用中介模块对异构知识源上的单跳 / 多跳问题进行回答。在预训练语言模型的基础上，通过将检索到的证据与其相关的全局上下文链接到图中，并将它们组织成候选证据链，实现了竞争性的性能。在两个 ODQA 数据集 OTT-QA 和 NQ 上，我们的模型显著优于之前最先进的方法，在 OTT-QA 上具有 47.3 的精确匹配分数（相对增益 45%）。

Oct, 2022

复杂问答与语言模型的混合架构，调研

本文回顾了混合语言模型在复杂问答（QA，CQA，CPS）中架构和策略的最新进展，指出了提高 LLM 在处理背景知识、安全数据保护、解释性等方面的方法，并探讨了与复杂 QA 相关的挑战及当前解决方案和发展趋势。

Feb, 2023

利用 LLMs 深入挖掘长文档问答中的话语结构

通过利用文档中普遍存在的话语结构，我们提出了一套技术方法，创造出文档的简洁表示形式，从而更全面地理解和分析不同部分之间的关系。我们保留了最佳零射击方法性能的 99.6％，同时仅处理了最佳方法在信息查询证据检索设置中使用的总令牌数量的 26％。我们还展示了如何将我们的方法与 “自问” 推理代理结合起来，以实现复杂的多跳问题回答中的最佳零射击性能，仅比使用研究证据时的零射击性能少约 4％。

Nov, 2023

DEXTER：使用 LLMs 进行开放域复杂问题回答的基准测试

通过建立一个包含多样化复杂问答任务的基准以及提供工具包，在开放领域环境中评估先进的预训练密集和稀疏检索模型，本研究旨在解决开放领域复杂问答中证据检索和推理的挑战。我们观察到晚期交互模型和词汇模型（如 BM25）表现较好，此外，我们还评估了 LLMs 的推理能力以及检索性能对其推理能力的影响，通过实验证实，要改进复杂问答的下游性能，还有很多待办之事。

Jun, 2024

行动连锁：通过大语言模型进行忠实的多模态问答

我们提出了一种多模态且具有检索增强的问题回答的行动链框架，通过系统提示和预设计的行动将复杂问题分解为推理链。我们使用三种可调整领域的 “即插即用” 操作来从异构来源中检索实时信息，并提出了一个多参考信任分数（MRFS）来验证和解决答案中的冲突。通过公共基准测试和 Web3 案例研究，我们验证了 CoA 相对于其他方法的能力。

Mar, 2024

搜索锁链：面向复杂知识密集型任务的精确、可信和可追溯的内容生成

本文提出一种称为 Search-in-the-Chain（SearChain）的新框架，旨在通过将信息检索和 LLM 深度整合来提高 LLM 生成答案的准确性、可信性和可追溯性，具体应用于 typ ical complex knowledge-intensive task 中 multi-hop question answering。

Apr, 2023