Jul, 2024

增强大型语言模型的数学推理能力的令牌监督价值模型

TL;DR使用令牌级别监督和期望的累积奖励,我们设计了一种训练方案,以修正确定令牌级别推理路径的不足,并提出了基于减少未来正确性概率的累积奖励的实际制定方式,从而使令牌级别价值模型(TVM)在数学推理基准测试中胜过逐步验证器。