Feb, 2025

直接价值优化:通过优化价值提升大型语言模型的思考链推理

TL;DR本研究针对大型语言模型在复杂推理任务中的不足,提出了一种新颖的强化学习框架——直接价值优化(DVO)。通过在每个推理步骤中利用价值信号,DVO显著提高了模型性能,且进行了较少的训练步骤,显示出其在缺乏明确人类偏好信息的情况下的优越性。