May, 2025

将价值重新引入强化学习:通过统一大语言模型推理器与验证器实现更好的测试时间缩放

TL;DR本研究解决了现有强化学习方法中,未能有效利用学习到的价值函数的问题。通过提出RL$^V$,将大语言模型同时训练为推理器和生成验证器,从而增强验证能力,显著提高了MATH任务的准确率,并实现了高达$8-32\times$的测试时间计算效率提升,展示了出色的泛化能力和性能。