process supervision | BriefGPT

关键词process supervision

搜索结果 - 5

通过自动流程监督来改善语言模型中的数学推理
我们提出了一种新颖的分而治之式蒙特卡洛树搜索（MCTS）算法 OmegaPRM，用于有效地收集高质量的过程监督数据，进一步提高了指导调优的 Gemini Pro 模型在数学推理性能上的成功率，相较于现有方法，我们的方法在财务和计算上都具有成
PDFa month ago
通过逆序课程强化学习训练大规模语言模型
本研究提出了一种名为 R^3 的学习推理的逆向课程强化学习方法，该方法仅借助结果监督实现大型语言模型的过程监督的益处。该方法通过学习正确演示，使用逐步课程逐渐滑动推理起始状态，以便在所有阶段更容易地进行模型探索，从而允许结果监督提供逐步信号
PDF5 months ago
通过验证器进行多步问题求解：基于模型引导的过程监督的实证分析
通过使用训练过的验证器评估推理器生成的中间步骤，过程监督在多步问题解决中展示出了显著的改进。为了避免在验证器训练数据上进行昂贵的人工注释，本文引入了一种新颖的自动化数据整理方法，即模型引导的过程监督（MiPS）。MiPS 通过对推理模型的解
PDF5 months ago
数学牧人：一种无需标签的逐步验证器，用于数学推理中的 LLMs
Math-Shepherd 是一种创新的过程导向数学验证器，使用自动生成的过程级监督数据进行训练，通过对 LLM 的输出逐步赋予奖励分数来解决复杂多步骤数学问题，指导一系列开源 LLMs 取得了非凡的性能，并在自洽性方法和其他验证模型方面表
PDF7 months ago
逐步验证
本文研究了监督方法对于训练语言模型的影响，发现在处理复杂的数学问题时，采用过程监督的方法能够显著提高模型的准确性，同时主动学习也可以有效增强过程监督的效果。最终文章提供了一个完整的数据集，并推荐将过程监督引入到其他相关语言模型的研究中。
PDFa year ago