Apr, 2025

思考过程奖励模型

TL;DR本研究解决了现有过程奖励模型(PRMs)在训练中需要大量监督标签的成本问题。我们提出的ThinkPRM是一种数据高效的模型,通过生成验证推理链(CoT)来对每个步骤进行验证,显著减少了使用的过程标签数量,并在多个基准上表现超越了传统的判别模型。这项工作展示了生成型长CoT PRMs的重要性,可以在最少监督下有效扩展测试时间计算能力。