BriefGPT.xyz
Ask
alpha
关键词
process supervision
搜索结果 - 5
通过自动流程监督来改善语言模型中的数学推理
我们提出了一种新颖的分而治之式蒙特卡洛树搜索(MCTS)算法 OmegaPRM,用于有效地收集高质量的过程监督数据,进一步提高了指导调优的 Gemini Pro 模型在数学推理性能上的成功率,相较于现有方法,我们的方法在财务和计算上都具有成
→
PDF
a month ago
通过逆序课程强化学习训练大规模语言模型
本研究提出了一种名为 R^3 的学习推理的逆向课程强化学习方法,该方法仅借助结果监督实现大型语言模型的过程监督的益处。该方法通过学习正确演示,使用逐步课程逐渐滑动推理起始状态,以便在所有阶段更容易地进行模型探索,从而允许结果监督提供逐步信号
→
PDF
5 months ago
通过验证器进行多步问题求解:基于模型引导的过程监督的实证分析
通过使用训练过的验证器评估推理器生成的中间步骤,过程监督在多步问题解决中展示出了显著的改进。为了避免在验证器训练数据上进行昂贵的人工注释,本文引入了一种新颖的自动化数据整理方法,即模型引导的过程监督(MiPS)。MiPS 通过对推理模型的解
→
PDF
5 months ago
数学牧人:一种无需标签的逐步验证器,用于数学推理中的 LLMs
Math-Shepherd 是一种创新的过程导向数学验证器,使用自动生成的过程级监督数据进行训练,通过对 LLM 的输出逐步赋予奖励分数来解决复杂多步骤数学问题,指导一系列开源 LLMs 取得了非凡的性能,并在自洽性方法和其他验证模型方面表
→
PDF
7 months ago
逐步验证
本文研究了监督方法对于训练语言模型的影响,发现在处理复杂的数学问题时,采用过程监督的方法能够显著提高模型的准确性,同时主动学习也可以有效增强过程监督的效果。最终文章提供了一个完整的数据集,并推荐将过程监督引入到其他相关语言模型的研究中。
PDF
a year ago
Prev
Next