利用计划评估进行最远推理：检索增强的大型语言模型稳定推理路径

Sep, 2023

利用计划评估进行最远推理：检索增强的大型语言模型稳定推理路径

Furthest Reasoning with Plan Assessment: Stable Reasoning Path with Retrieval-Augmented Large Language Models

Yin Zhu, Zhiling Luo, Gong Cheng

TL;DR本文提出了一种针对多跳问题回答的新方法，称为 FuRePA，其中包括改进框架（Furthest Reasoning）和附加模块（Plan Assessor）。通过屏蔽之前的推理路径和生成的查询，鼓励 LLM 在每次迭代中从头开始生成思路，从而打破先前误导思想和查询的束缚。通过对三个公认的多跳问题回答数据集的评估，我们的方法在大多数指标上优于现有技术（回答准确率提高了 10%-12%）。

Abstract

large language models (LLMs), acting as a powerful reasoner and generator, exhibit extraordinary performance across various natural language tasks, such as question answering (QA). Among these tasks, multi-hop question

large language models multi-hop question answering information retriever furthest-reasoning-with-plan-assessment plan assessor

发现论文，激发创造

MRKE: 基于知识编辑的 LLMs 的多跳推理评估

利用修改的 HotpotQA 数据集为基础，我们引入了第一个基于新的无与伦比的知识的 LLM 多跳问答评估基准，并注释和评估了形式为子问题和中间答案的推理链，以此促进对 LLM 在多跳问答任务上的可信评估的发展。

Feb, 2024

检索重构：大规模语言模型推理

本文提出了一种名为 'rethinking with retrieval' (RR) 的后置处理方法，借助 'chain-of-thought' (CoT) 提示中的分解推理步骤检索相关的外部知识，从而改善大语言模型在常识推理、时间推理和表格推理等方面的性能。

Dec, 2022

从知识图谱中学习为检索增强的大型语言模型规划

使用来自知识图谱的规划数据，我们介绍了一种增强大型语言模型在复杂问答任务中的性能的新框架，通过使用这些数据对 LLMs 进行微调，提高其规划能力，更好地处理涉及检索的复杂 QA 任务。我们的框架在多个数据集上进行评估，包括我们提出的新基准，突出了其有效性和知识图谱派生规划数据的好处。

Jun, 2024

对话式语言模型的推理即世界模型的规划

本文介绍了基于 Monte Carlo 搜索算法的新型大语言模型推理框架 RAP，利用其上的世界模型进行计划生成和复杂推理。从多个任务测试中，RAP 在效率和准确率上都超过了 Chain-of-Thought 等现有方案。

May, 2023

高效知识路径的推理：知识图引导领域问题回答的大型语言模型

通过在知识图谱（KG）上选择推理路径并结合思维链（CoT）和 PageRank 的子图检索方法，本文整合和优化了一个基于大型语言模型（LLM）的管道，可以减少对 LLM 的依赖。最终，RoK 证明了使用较少的 LLM 调用可以达到相同的结果。

Apr, 2024

语言模型中的多跳问题回答的检索增强知识编辑

用于多跳问题回答的检索增强模型编辑框架（RAE）利用相互信息最大化的检索方法和修剪策略来提供精确的答案和更新的知识。

Mar, 2024

DIVKNOWQA: 通过知识库和文本进行开放领域问答评估 LLM 的推理能力

大型语言模型在生成能力方面表现出色，但当仅依赖其内部知识时，容易出现幻觉，尤其是在回答需要不太常见的信息的问题时。基于检索的大型语言模型已经成为将其与外部知识结合的潜在解决方案，然而，最近的方法主要强调从非结构化文本语料库进行检索，忽视了底层结构。此外，当前领域存在一个显著的差距，即缺乏对异构知识源（如知识库和文本）上的大型语言模型进行有效定位的实际基准数据集。为了填补这一空白，我们精心策划了一个综合数据集，提出了两个独特挑战：（1）需要从开放域结构化和非结构化的知识源中检索信息的两跳多源问题，正确回答问题需要从结构化知识源中检索信息；（2）符号化查询（例如用于 Wikidata 的 SPARQL）的生成是一个关键要求，增加了额外的挑战。我们的数据集通过预定义的推理链自动生成和人工注释相结合的方式创建，我们还引入了一种新颖的方法，利用多个检索工具，包括文本段落检索和符号化语言辅助检索。我们的模型在解决上述推理挑战方面优于以往的方法。

Oct, 2023

大型语言模型的冗余信息推理能力分析

最近在大规模语言模型 (LLMs) 的研究中取得了令人印象深刻的进展，尤其在推理方面，对于实现人工智能 (AGI) 至关重要。然而，常用的测试基准可能无法完全展现这些模型在现实场景中的推理能力。为了解决这一问题，引入了一种新形式的问答任务，称为 Reasoning with Redundant Information Provided (RRIP)。该研究设计了改进版本的小学数学 8K (GSM-8K) 数据集，它有几个变体，关注冗余信息的不同属性。在传统的问答任务和 RRIP 任务上，评估了两个流行的 LLMs，分别是 LlaMA2-13B-chat 和生成预训练转换器 3.5（GPT-3.5）。研究结果表明，尽管这些模型在标准问答基准中取得了一定的成功，但它们在 RRIP 任务上的表现明显下降。该研究不仅突出了当前 LLMs 在处理冗余信息方面的局限性，还建议未来训练这些模型时应将冗余信息纳入训练数据，以提高在 RRIP 任务上的性能。

Oct, 2023

让推理有意义：衡量和提升思考推理的可靠性

通过对十二个大型语言模型进行因果中介分析，本文发现大型语言模型在生成最终答案时并不可靠地使用中间推理步骤。为了解决这个问题，我们引入了 FRODO 框架，该框架通过使用隐式因果奖励函数生成正确的推理步骤，以及通过因果和对抗优化目标忠实地进行推理。实验证明，FRODO 显著优于其他四个基线方法，提高了推理语言模型的鲁棒性和泛化能力，在分布外测试集上表现更好。最后，我们发现 FRODO 的解释对最终答案的预测更加可靠。

Feb, 2024

利用结构化信息进行可解释的多跳问题回答和推理

构建和利用语义结构的多跳问题回答框架，通过神经模型和连续思维机制提高推理能力，并结合信息抽取和提取的语义结构实现更准确和可解释的问题回答。

Nov, 2023