逐步验证

May, 2023

Let's Verify Step by Step

Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker...

TL;DR本文研究了监督方法对于训练语言模型的影响，发现在处理复杂的数学问题时，采用过程监督的方法能够显著提高模型的准确性，同时主动学习也可以有效增强过程监督的效果。最终文章提供了一个完整的数据集，并推荐将过程监督引入到其他相关语言模型的研究中。

Abstract

In recent years, large language models have greatly improved in their ability to perform complex multi-step reasoning. However, even state-of-the-art models still regularly produce logical mistakes. To train more

large language models multi-step reasoning process supervision outcome supervision math dataset

发现论文，激发创造

使用过程和结果反馈解决数学应用题

比较了基于结果的方法和基于过程的方法，在语言模型自动推理任务上提高了最佳结果。

Nov, 2022

通过自动流程监督来改善语言模型中的数学推理

我们提出了一种新颖的分而治之式蒙特卡洛树搜索（MCTS）算法 OmegaPRM，用于有效地收集高质量的过程监督数据，进一步提高了指导调优的 Gemini Pro 模型在数学推理性能上的成功率，相较于现有方法，我们的方法在财务和计算上都具有成本效益。

Jun, 2024

AlphaMath 几乎接近零：无过程的过程监督

利用 Monte Carlo Tree Search (MCTS) 框架和大型语言模型 (LLMs) 自动生成解决步骤和评估信号，训练一个逐步价值模型以提高 LLM 在数学领域中的推理过程。实验证明，采用 LLMs 结合 MCTS 自动生成的解决方案显著提高了模型处理复杂数学推理任务的能力。

May, 2024

逐步强化

通过利用人类反馈的强化学习方法，本研究探索了两种奖励机制：基于结果监督的奖励模型和基于过程监督的奖励模型，以优化语言模型的逻辑推理能力，结果显示基于过程监督的方法可以提高简单数学推理的准确性，但意外地降低了复杂任务的表现，并且认为奖励聚合函数在模型性能中扮演着关键的作用，强调有必要进一步研究细粒度奖励模型以提高语言模型的可靠性。

Nov, 2023

通过验证器进行多步问题求解：基于模型引导的过程监督的实证分析

通过使用训练过的验证器评估推理器生成的中间步骤，过程监督在多步问题解决中展示出了显著的改进。为了避免在验证器训练数据上进行昂贵的人工注释，本文引入了一种新颖的自动化数据整理方法，即模型引导的过程监督（MiPS）。MiPS 通过对推理模型的解决方案的样本完成进行注释，并获得一个准确度，该准确度被定义为正确完成的比例，来注释中间步骤。推理器中的错误会导致 MiPS 低估中间步骤的准确度，因此我们建议并经验证明，与以往研究相反，应该优先选择验证器的高预测分数而不是低预测分数。我们的方法显著提高了 PaLM 2 在数学和编码任务上的性能（与输出监督训练的验证器相比，GSM8K 的准确度提高了 0.67％，MATH 的准确度提高了 4.16％，MBPP 的准确度提高了 0.92％）。此外，我们的研究表明，验证器在不同推理模型之间具有很强的泛化能力。

Feb, 2024

逐步奖励：作为推理导航器的步骤级奖励模型

研究论文探讨了在多步推理中利用反馈机制和搜索机制提高模型推理准确性的效果，提出了一种基于奖励模型的启发式贪婪搜索算法，与其他方法相比在数学推理和代码生成任务中表现出更好的结果，并展示了在推理任务中基于奖励模型的方法的鲁棒性。

Oct, 2023

数学推理中的规划行为监督验证器

利用结果监督进行训练的 Outcome-supervision Value Model (OVM) 通过优先考虑能够导致准确结论的步骤，而非每一步的正确性，从而将多步推理转变为一种规划问题，提供了一种高效而直观的解决方法。在两个多步数学推理数据集 GSM8K 和 Game of 24 上的实验表明，OVM 模型取得了卓越的性能，特别是在 GSM8K 中，OVM-7B 模型在 LLMs 中达到了 13B 参数的最新成果。这些发现为多步推理任务中训练验证器的结果监督作用提供了新的视角，并为其在规划价值估计中的优势提供了理论依据。

Nov, 2023

通过逆序课程强化学习训练大规模语言模型

本研究提出了一种名为 R^3 的学习推理的逆向课程强化学习方法，该方法仅借助结果监督实现大型语言模型的过程监督的益处。该方法通过学习正确演示，使用逐步课程逐渐滑动推理起始状态，以便在所有阶段更容易地进行模型探索，从而允许结果监督提供逐步信号并准确定位错误。使用 Llama2-7B，在八个推理任务上，我们的方法平均超过基于强化学习的基线 4.1 个点。值得注意的是，在基于程序的推理任务 GSM8K 上，与不使用任何额外数据的基线相比，Codellama-7B + R^3 在三个骨干模型上的表现相当于更大的模型或闭源模型。

Feb, 2024

AutoPRM：通过可控的问题分解自动化多步推理的过程监督

本研究提出了一种自监督框架 AutoPRM，通过将复杂问题分解为可管理的子问题，并应用强化学习迭代地改进子问题的求解器，从而显著提高了数学和常识推理任务的性能。

Feb, 2024

附带监督：超越监督式学习

通过多种设计好的学习范式来缓解监督瓶颈，以在文本中诱导各种语义表征，从而帮助决策，减少生成必要的监督信号导致的代价和不可扩展的问题。

May, 2020