Jun, 2024

数学推理的步骤级价值优化

TL;DR我们引入了一种名为 Step-level Value Preference Optimization (SVPO) 的新算法,它使用蒙特卡洛树搜索(MCTS)自动对多步推理进行步骤级别的偏好注释,并从学习排序的角度训练一个显式值模型来复制隐式奖励模型的行为,从而提高大型语言模型的生成回报响应性能。实验证明,我们的方法在领域内和领域外的数学推理基准测试上达到了最先进的性能。