通过验证器进行多步问题求解：基于模型引导的过程监督的实证分析

Feb, 2024

通过验证器进行多步问题求解：基于模型引导的过程监督的实证分析

Multi-step Problem Solving Through a Verifier: An Empirical Analysis on Model-induced Process Supervision

Zihan Wang, Yunxuan Li, Yuexin Wu, Liangchen Luo, Le Hou...

TL;DR通过使用训练过的验证器评估推理器生成的中间步骤，过程监督在多步问题解决中展示出了显著的改进。为了避免在验证器训练数据上进行昂贵的人工注释，本文引入了一种新颖的自动化数据整理方法，即模型引导的过程监督（MiPS）。MiPS 通过对推理模型的解决方案的样本完成进行注释，并获得一个准确度，该准确度被定义为正确完成的比例，来注释中间步骤。推理器中的错误会导致 MiPS 低估中间步骤的准确度，因此我们建议并经验证明，与以往研究相反，应该优先选择验证器的高预测分数而不是低预测分数。我们的方法显著提高了 PaLM 2 在数学和编码任务上的性能（与输出监督训练的验证器相比，GSM8K 的准确度提高了 0.67％，MATH 的准确度提高了 4.16％，MBPP 的准确度提高了 0.92％）。此外，我们的研究表明，验证器在不同推理模型之间具有很强的泛化能力。

Abstract

process supervision, using a trained verifier to evaluate the intermediate steps generated by reasoner, has demonstrated significant improvements in multi-step problem solving. In this paper, to avoid expensive h

process supervision trained verifier model-induced process supervision data curation performance improvement

发现论文，激发创造

逐步验证

本文研究了监督方法对于训练语言模型的影响，发现在处理复杂的数学问题时，采用过程监督的方法能够显著提高模型的准确性，同时主动学习也可以有效增强过程监督的效果。最终文章提供了一个完整的数据集，并推荐将过程监督引入到其他相关语言模型的研究中。

May, 2023

通过自动流程监督来改善语言模型中的数学推理

我们提出了一种新颖的分而治之式蒙特卡洛树搜索（MCTS）算法 OmegaPRM，用于有效地收集高质量的过程监督数据，进一步提高了指导调优的 Gemini Pro 模型在数学推理性能上的成功率，相较于现有方法，我们的方法在财务和计算上都具有成本效益。

Jun, 2024

AlphaMath 几乎接近零：无过程的过程监督

利用 Monte Carlo Tree Search (MCTS) 框架和大型语言模型 (LLMs) 自动生成解决步骤和评估信号，训练一个逐步价值模型以提高 LLM 在数学领域中的推理过程。实验证明，采用 LLMs 结合 MCTS 自动生成的解决方案显著提高了模型处理复杂数学推理任务的能力。

May, 2024

数学推理中的规划行为监督验证器

利用结果监督进行训练的 Outcome-supervision Value Model (OVM) 通过优先考虑能够导致准确结论的步骤，而非每一步的正确性，从而将多步推理转变为一种规划问题，提供了一种高效而直观的解决方法。在两个多步数学推理数据集 GSM8K 和 Game of 24 上的实验表明，OVM 模型取得了卓越的性能，特别是在 GSM8K 中，OVM-7B 模型在 LLMs 中达到了 13B 参数的最新成果。这些发现为多步推理任务中训练验证器的结果监督作用提供了新的视角，并为其在规划价值估计中的优势提供了理论依据。

Nov, 2023

AutoPRM：通过可控的问题分解自动化多步推理的过程监督

本研究提出了一种自监督框架 AutoPRM，通过将复杂问题分解为可管理的子问题，并应用强化学习迭代地改进子问题的求解器，从而显著提高了数学和常识推理任务的性能。

Feb, 2024

使用过程和结果反馈解决数学应用题

比较了基于结果的方法和基于过程的方法，在语言模型自动推理任务上提高了最佳结果。

Nov, 2022

数学牧人：一种无需标签的逐步验证器，用于数学推理中的 LLMs

Math-Shepherd 是一种创新的过程导向数学验证器，使用自动生成的过程级监督数据进行训练，通过对 LLM 的输出逐步赋予奖励分数来解决复杂多步骤数学问题，指导一系列开源 LLMs 取得了非凡的性能，并在自洽性方法和其他验证模型方面表现优异，我们相信自动过程监督对 LLM 的未来演进具有重要潜力。

Dec, 2023

探索语言模型的多步推理能力的机械解释

在这篇论文中，我们通过探索一种机械化方法来回答语言模型在多步推理任务中是通过抄袭预训练语料库中记忆的答案还是通过多步推理机制来完成这些任务的疑问。我们引入了一种新的探测方法（称为机械化探测器），从模型的注意力模式中恢复推理树，用于分析两个语言模型：GPT-2 在一个合成任务（第 k 个最小元素）上以及 LLaMA 在两个简单的基于语言的推理任务（ProofWriter 和 AI2 推理挑战）上。我们展示了机械化探测器能够在大多数示例中从模型的注意力中检测到推理树的信息，这表明在许多情况下语言模型确实在其架构中经历了一个多步推理的过程。

Oct, 2023

通过合作推理引发的语言模型解决数学文字问题

本文提出了合作推理的预训练语言模型 (CoRe)，以类人的推理框架，即系统 1 为生成器，系统 2 为验证器的方式解决数学单词问题，通过几个数学推理数据集的评估，相比于最佳基线方法，取得了相当的改进。

Oct, 2022

训练验证程序员解决数学应用题

介绍一个 8.5K 高质量的语言多样的小学数学问题数据集 GSM8K，表明即便是最大的变压器模型仍然无法在多步数学推理方面实现高的测试性能，提出使用 verifiers 验证模型的正确性并通过排名选择最优解来提高性能。

Oct, 2021