AutoPRM：通过可控的问题分解自动化多步推理的过程监督

Feb, 2024

AutoPRM：通过可控的问题分解自动化多步推理的过程监督

AutoPRM: Automating Procedural Supervision for Multi-Step Reasoning via Controllable Question Decomposition

Zhaorun Chen, Zhuokai Zhao, Zhihong Zhu, Ruiqi Zhang, Xiang Li...

TL;DR本研究提出了一种自监督框架 AutoPRM，通过将复杂问题分解为可管理的子问题，并应用强化学习迭代地改进子问题的求解器，从而显著提高了数学和常识推理任务的性能。

Abstract

Recent advancements in large language models (LLMs) have shown promise in multi-step reasoning tasks, yet their reliance on extensive manual labeling to provide procedural feedback remains a significant impedimen

large language models multi-step reasoning tasks self-supervised framework reinforcement learning performance improvement

发现论文，激发创造

逐步奖励：作为推理导航器的步骤级奖励模型

研究论文探讨了在多步推理中利用反馈机制和搜索机制提高模型推理准确性的效果，提出了一种基于奖励模型的启发式贪婪搜索算法，与其他方法相比在数学推理和代码生成任务中表现出更好的结果，并展示了在推理任务中基于奖励模型的方法的鲁棒性。

Oct, 2023

通过自动流程监督来改善语言模型中的数学推理

我们提出了一种新颖的分而治之式蒙特卡洛树搜索（MCTS）算法 OmegaPRM，用于有效地收集高质量的过程监督数据，进一步提高了指导调优的 Gemini Pro 模型在数学推理性能上的成功率，相较于现有方法，我们的方法在财务和计算上都具有成本效益。

Jun, 2024

逐步强化

通过利用人类反馈的强化学习方法，本研究探索了两种奖励机制：基于结果监督的奖励模型和基于过程监督的奖励模型，以优化语言模型的逻辑推理能力，结果显示基于过程监督的方法可以提高简单数学推理的准确性，但意外地降低了复杂任务的表现，并且认为奖励聚合函数在模型性能中扮演着关键的作用，强调有必要进一步研究细粒度奖励模型以提高语言模型的可靠性。

Nov, 2023

Q*: 改进 LLMs 的多步推理与计划

通过引入 Q* 框架，我们可以缓解大型语言模型在多步推理时产生的错误、幻觉和不一致陈述的问题。Q* 是一个通用、多功能和灵活的框架，通过学习一个插拔式的 Q-value 模型作为启发式函数，有效地指导大型语言模型选择最有前途的下一步，避免了对每个任务进行大型语言模型微调所带来的计算开销和性能退化的潜在风险。在 GSM8K、MATH 和 MBPP 三个任务上的大量实验证明了我们方法的优越性。

Jun, 2024

AlphaMath 几乎接近零：无过程的过程监督

利用 Monte Carlo Tree Search (MCTS) 框架和大型语言模型 (LLMs) 自动生成解决步骤和评估信号，训练一个逐步价值模型以提高 LLM 在数学领域中的推理过程。实验证明，采用 LLMs 结合 MCTS 自动生成的解决方案显著提高了模型处理复杂数学推理任务的能力。

May, 2024

LLM 推理器：大型语言模型逐步推理的新评估、库和分析

该论文介绍了 AutoRace 和 LLM Reasoners，分别用于评估和实现不同的推理方法，以解决大型语言模型在生成推理链时所面临的挑战。

Apr, 2024

探索语言模型的多步推理能力的机械解释

在这篇论文中，我们通过探索一种机械化方法来回答语言模型在多步推理任务中是通过抄袭预训练语料库中记忆的答案还是通过多步推理机制来完成这些任务的疑问。我们引入了一种新的探测方法（称为机械化探测器），从模型的注意力模式中恢复推理树，用于分析两个语言模型：GPT-2 在一个合成任务（第 k 个最小元素）上以及 LLaMA 在两个简单的基于语言的推理任务（ProofWriter 和 AI2 推理挑战）上。我们展示了机械化探测器能够在大多数示例中从模型的注意力中检测到推理树的信息，这表明在许多情况下语言模型确实在其架构中经历了一个多步推理的过程。

Oct, 2023

大型语言模型的自动多步推理和工具使用

ART 框架使用冻结的 LLM 自动生成中间推理步骤作为程序，并能无缝集成生成和外部工具使用，使得在 BigBench 和 MMLU 基准测试中，通过自动 CoT 和 few-shot 提示，ART 实现了对未知任务的实质性改进。在选定的任务上，人们可以通过纠正特定的程序错误或整合新工具来改善 ART 的性能.

Mar, 2023

利用可满足性辅助的语言模型与声明性提示

本文提出了一种新的满足性辅助语言建模方法，利用自然语言处理模型生成任务的声明性规范，使用现成的自动定理证明器进行推理并验证答案的正确性，在解决需要更复杂的规划与搜索任务时比基于编程范式的模型更加有效。

May, 2023

逐步验证

本文研究了监督方法对于训练语言模型的影响，发现在处理复杂的数学问题时，采用过程监督的方法能够显著提高模型的准确性，同时主动学习也可以有效增强过程监督的效果。最终文章提供了一个完整的数据集，并推荐将过程监督引入到其他相关语言模型的研究中。

May, 2023