Q*: 改进 LLMs 的多步推理与计划

Jun, 2024

Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning

Chaojie Wang, Yanchen Deng, Zhiyi Lv, Shuicheng Yan, An Bo

TL;DR通过引入 Q* 框架，我们可以缓解大型语言模型在多步推理时产生的错误、幻觉和不一致陈述的问题。Q* 是一个通用、多功能和灵活的框架，通过学习一个插拔式的 Q-value 模型作为启发式函数，有效地指导大型语言模型选择最有前途的下一步，避免了对每个任务进行大型语言模型微调所带来的计算开销和性能退化的潜在风险。在 GSM8K、MATH 和 MBPP 三个任务上的大量实验证明了我们方法的优越性。

Abstract

<q*spanq* q*classq*="→

large language models auto-regressive generation process errors hallucinations q*

发现论文，激发创造

LLMs 无法策划，但可以在 LLM-Modulo 框架中帮助策划

大语言模型在规划和推理任务中的作用有很多混淆。我们认为，自回归 LLM 本身无法进行规划或自验证，并指出了文献中常见误解的原因。我们提出了 LLM - 模块化框架的愿景，将 LLM 的优势与外部基于模型的验证器在更紧密的双向交互方式中结合起来。我们将展示如何利用 LLM 获得驱动外部验证器的模型。我们还将论述 LLM - 模块化框架提供了更好的神经符号方法，通过更灵活的知识、问题和偏好规范，扩展了基于模型的规划 / 推理范围。

Feb, 2024

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

第一步优势：多步推理中开始正确的重要性

大型语言模型可以通过为其预测生成理由来解决复杂的推理任务。通过将这些功能融入到较小、紧凑的模型中，可以促进为特定任务量身定制的专门、经济高效的模型的创建。然而，较小的模型在复杂的推理任务中常常面临挑战，并且通常会偏离正确的推理路径。我们发现，只有在恰当的时机介入，大型语言模型才能指导较小的模型并将它们带回正确的推理路径。我们发现，较小的模型在推理方面主要因为难以启动过程而失败，引导它们朝正确的方向发展可以使性能提高 100% 以上。我们探索不同的模型大小并评估提供指导以改善较小模型推理能力的益处。

Nov, 2023

大型语言模型的规划能力 - 一项关键调查

本文旨在研究 LLLms 在常识规划任务中的规划能力，通过在国际计划竞赛中生成一系列实例，并评估 LLMs 在自主规划和启发式两种不同模式下的表现，发现 LLMs 在自主规划方面的表现非常有限，但在启发式模式下，LLMs 生成的计划可以改善其它智能计划器的搜索过程并提供反馈以进一步验证计划质量。

May, 2023

LLM 推理器：大型语言模型逐步推理的新评估、库和分析

该论文介绍了 AutoRace 和 LLM Reasoners，分别用于评估和实现不同的推理方法，以解决大型语言模型在生成推理链时所面临的挑战。

Apr, 2024

思路规划：以启发式引导的大型语言模型问题解决方案

在本研究中，我们使用基于规划的方法结合部分可观察马尔可夫决策过程（POMDPs）来解决多步骤的问题，并通过 POMCP 在线求解器在 24 点游戏任务上展现出了 89.4% 的优越成功率，同时也提供了比之前使用的固定树搜索更好的任意时间性能。

Apr, 2024

对话式语言模型的推理即世界模型的规划

本文介绍了基于 Monte Carlo 搜索算法的新型大语言模型推理框架 RAP，利用其上的世界模型进行计划生成和复杂推理。从多个任务测试中，RAP 在效率和准确率上都超过了 Chain-of-Thought 等现有方案。

May, 2023

用计划标记引导语言模型推理

最近大型语言模型（LLMs）因其执行复杂的推理任务的能力而引起了相当大的关注，但是大部分现有的增强这种能力的方法都过于依赖数据驱动的方法，而忽视了模型推理能力的结构方面。在我们的研究中，我们发现 LLMs 能够很好地处理个别的推理步骤，却在整个推理链上保持一致性方面遇到困难。为了解决这个问题，我们在每个推理步骤的开始引入了 “规划标记”，作为模型的指南。然后，这些标记嵌入与模型的其余参数一起进行微调。我们的方法所需的可训练参数增加微不足道（仅占总参数的 0.001%），可以通过完全微调或更加参数高效的方案来实施。我们通过将其应用于三种不同的 LLMs，并对三个数学问题数据集进行了评估，展示了我们方法的有效性，相对于原始的链式思维微调基准，取得了显著的准确性提升。

Oct, 2023

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

利用大型语言模型启发增强 Q-Learning

LLM-guided Q-learning combines the advantages of large language models and Q-learning without introducing performance bias, providing action-level guidance and converting hallucinations into exploration costs, resulting in improved sampling efficiency and suitability for complex control tasks.

May, 2024