Feb, 2025

自适应步骤:通过模型置信度自动划分推理步骤

TL;DR本研究解决了当前过程奖励模型(PRMs)训练中依据固定规则划分推理步骤的问题,提出了自适应步骤(AdaptiveStep)方法,通过模型在预测下一个词时的置信度来划分推理步骤。这一新方法在数学推理和代码生成任务中有效提升了奖励模型学习的效果,且在成本上较现有开源PRMs降低超过30%。