Feb, 2024

V-STaR:自主学习推理器的验证器训练

TL;DR通过使用 DPO 判断模型生成的正确和错误解,V-STaR 提出了一种利用自我改进过程中生成的正确和错误解的方法,用于训练验证器,并在推理时从众多候选解中选择一种解,多次运行 V-STaR 可以逐渐提升推理能力和正确性,并在常见代码生成和数学推理基准中相较于现有的自我改进和验证方法提高了 4%至 17%的测试准确率。