逐步验证
我们提出了一种新颖的分而治之式蒙特卡洛树搜索(MCTS)算法 OmegaPRM,用于有效地收集高质量的过程监督数据,进一步提高了指导调优的 Gemini Pro 模型在数学推理性能上的成功率,相较于现有方法,我们的方法在财务和计算上都具有成本效益。
Jun, 2024
利用 Monte Carlo Tree Search (MCTS) 框架和大型语言模型 (LLMs) 自动生成解决步骤和评估信号,训练一个逐步价值模型以提高 LLM 在数学领域中的推理过程。实验证明,采用 LLMs 结合 MCTS 自动生成的解决方案显著提高了模型处理复杂数学推理任务的能力。
May, 2024
通过利用人类反馈的强化学习方法,本研究探索了两种奖励机制:基于结果监督的奖励模型和基于过程监督的奖励模型,以优化语言模型的逻辑推理能力,结果显示基于过程监督的方法可以提高简单数学推理的准确性,但意外地降低了复杂任务的表现,并且认为奖励聚合函数在模型性能中扮演着关键的作用,强调有必要进一步研究细粒度奖励模型以提高语言模型的可靠性。
Nov, 2023
通过使用训练过的验证器评估推理器生成的中间步骤,过程监督在多步问题解决中展示出了显著的改进。为了避免在验证器训练数据上进行昂贵的人工注释,本文引入了一种新颖的自动化数据整理方法,即模型引导的过程监督(MiPS)。MiPS 通过对推理模型的解决方案的样本完成进行注释,并获得一个准确度,该准确度被定义为正确完成的比例,来注释中间步骤。推理器中的错误会导致 MiPS 低估中间步骤的准确度,因此我们建议并经验证明,与以往研究相反,应该优先选择验证器的高预测分数而不是低预测分数。我们的方法显著提高了 PaLM 2 在数学和编码任务上的性能(与输出监督训练的验证器相比,GSM8K 的准确度提高了 0.67%,MATH 的准确度提高了 4.16%,MBPP 的准确度提高了 0.92%)。此外,我们的研究表明,验证器在不同推理模型之间具有很强的泛化能力。
Feb, 2024
研究论文探讨了在多步推理中利用反馈机制和搜索机制提高模型推理准确性的效果,提出了一种基于奖励模型的启发式贪婪搜索算法,与其他方法相比在数学推理和代码生成任务中表现出更好的结果,并展示了在推理任务中基于奖励模型的方法的鲁棒性。
Oct, 2023
利用结果监督进行训练的 Outcome-supervision Value Model (OVM) 通过优先考虑能够导致准确结论的步骤,而非每一步的正确性,从而将多步推理转变为一种规划问题,提供了一种高效而直观的解决方法。在两个多步数学推理数据集 GSM8K 和 Game of 24 上的实验表明,OVM 模型取得了卓越的性能,特别是在 GSM8K 中,OVM-7B 模型在 LLMs 中达到了 13B 参数的最新成果。这些发现为多步推理任务中训练验证器的结果监督作用提供了新的视角,并为其在规划价值估计中的优势提供了理论依据。
Nov, 2023
本研究提出了一种名为 R^3 的学习推理的逆向课程强化学习方法,该方法仅借助结果监督实现大型语言模型的过程监督的益处。该方法通过学习正确演示,使用逐步课程逐渐滑动推理起始状态,以便在所有阶段更容易地进行模型探索,从而允许结果监督提供逐步信号并准确定位错误。使用 Llama2-7B,在八个推理任务上,我们的方法平均超过基于强化学习的基线 4.1 个点。值得注意的是,在基于程序的推理任务 GSM8K 上,与不使用任何额外数据的基线相比,Codellama-7B + R^3 在三个骨干模型上的表现相当于更大的模型或闭源模型。
Feb, 2024
本研究提出了一种自监督框架 AutoPRM,通过将复杂问题分解为可管理的子问题,并应用强化学习迭代地改进子问题的求解器,从而显著提高了数学和常识推理任务的性能。
Feb, 2024