Aug, 2024

生成验证器:将奖励建模作为下一标记预测

TL;DR本研究针对现有验证器(奖励模型)主要采用判别分类器训练的方法,提出了一种新颖的生成验证器(GenRM),通过下一标记预测目标联合进行验证和解决方案生成。结果表明,在算法和小学数学推理任务中,GenRM相较于现有方法优势明显,解决率提高了16%-64%,并且在数据集规模、模型容量和推理时计算要求方面展现了良好的扩展性。