逐步奖励：作为推理导航器的步骤级奖励模型

Oct, 2023

逐步奖励：作为推理导航器的步骤级奖励模型

Let's reward step by step: Step-Level reward model as the Navigators for Reasoning

Qianli Ma, Haotian Zhou, Tingkai Liu, Jianbo Yuan, Pengfei Liu...

TL;DR研究论文探讨了在多步推理中利用反馈机制和搜索机制提高模型推理准确性的效果，提出了一种基于奖励模型的启发式贪婪搜索算法，与其他方法相比在数学推理和代码生成任务中表现出更好的结果，并展示了在推理任务中基于奖励模型的方法的鲁棒性。

Abstract

Recent years have seen considerable advancements in multi-step reasoning with large language models (LLMs). The previous studies have elucidated the merits of integrating feedback or search mechanisms during mode

multi-step reasoning large language models process-supervised reward model mathematical reasoning code generation

发现论文，激发创造

逐步强化

通过利用人类反馈的强化学习方法，本研究探索了两种奖励机制：基于结果监督的奖励模型和基于过程监督的奖励模型，以优化语言模型的逻辑推理能力，结果显示基于过程监督的方法可以提高简单数学推理的准确性，但意外地降低了复杂任务的表现，并且认为奖励聚合函数在模型性能中扮演着关键的作用，强调有必要进一步研究细粒度奖励模型以提高语言模型的可靠性。

Nov, 2023

通过自动流程监督来改善语言模型中的数学推理

我们提出了一种新颖的分而治之式蒙特卡洛树搜索（MCTS）算法 OmegaPRM，用于有效地收集高质量的过程监督数据，进一步提高了指导调优的 Gemini Pro 模型在数学推理性能上的成功率，相较于现有方法，我们的方法在财务和计算上都具有成本效益。

Jun, 2024

AutoPRM：通过可控的问题分解自动化多步推理的过程监督

本研究提出了一种自监督框架 AutoPRM，通过将复杂问题分解为可管理的子问题，并应用强化学习迭代地改进子问题的求解器，从而显著提高了数学和常识推理任务的性能。

Feb, 2024

通过轨迹收集和过程奖励合成学习基于规划的推理

通过直接优化收集到的经验轨迹，我们提出一个基于规划的推理学习框架，以解决大型语言模型在复杂推理任务中出现的问题，并通过具体的过程奖励排名来提高生成推理过程的可靠性和可信度。

Feb, 2024

GLoRe：基于全局与局部细化的 LLM 推理的何时、何地和如何改进

我们提出了基于步骤的 Outcome-based Reward Models (SORMs) 来提高语言模型的推理能力，通过合并全局和局部细化模型使模型在 GSM8K 数据集上的准确率从 53% 提高到 65%。

Feb, 2024

探索语言模型的多步推理能力的机械解释

在这篇论文中，我们通过探索一种机械化方法来回答语言模型在多步推理任务中是通过抄袭预训练语料库中记忆的答案还是通过多步推理机制来完成这些任务的疑问。我们引入了一种新的探测方法（称为机械化探测器），从模型的注意力模式中恢复推理树，用于分析两个语言模型：GPT-2 在一个合成任务（第 k 个最小元素）上以及 LLaMA 在两个简单的基于语言的推理任务（ProofWriter 和 AI2 推理挑战）上。我们展示了机械化探测器能够在大多数示例中从模型的注意力中检测到推理树的信息，这表明在许多情况下语言模型确实在其架构中经历了一个多步推理的过程。

Oct, 2023

逐步验证

本文研究了监督方法对于训练语言模型的影响，发现在处理复杂的数学问题时，采用过程监督的方法能够显著提高模型的准确性，同时主动学习也可以有效增强过程监督的效果。最终文章提供了一个完整的数据集，并推荐将过程监督引入到其他相关语言模型的研究中。

May, 2023

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

对话式语言模型的推理即世界模型的规划

本文介绍了基于 Monte Carlo 搜索算法的新型大语言模型推理框架 RAP，利用其上的世界模型进行计划生成和复杂推理。从多个任务测试中，RAP 在效率和准确率上都超过了 Chain-of-Thought 等现有方案。

May, 2023

LLM 推理器：大型语言模型逐步推理的新评估、库和分析

该论文介绍了 AutoRace 和 LLM Reasoners，分别用于评估和实现不同的推理方法，以解决大型语言模型在生成推理链时所面临的挑战。

Apr, 2024