Mar, 2024

使用强化学习训练大型语言模型进行推理

TL;DR从人类反馈中进行强化学习(RLHF)已成为将 LLM 输出与人类偏好对齐的一种主要方法。受 RLHF 成功的启发,我们研究了从反馈中学习(Expert Iteration,Proximal Policy Optimization(PPO),Return-Conditioned RL)对改善 LLM 推理能力的多种算法的性能。我们通过启发式和学习的奖励模型为 LLM 提供了稀疏和密集奖励。我们还从多种模型尺寸和初始化状态,包括有和没有经过监督微调(SFT)数据的情况开始研究。总的来说,我们发现所有算法的性能相当,大多数情况下 Expert Iteration 的性能最佳。令人惊讶的是,我们发现 Expert Iteration 的样本复杂度与 PPO 相似,需要最多约 $10^6$ 个样本从预训练检查点收敛。我们研究了为什么会这样,并得出结论,在 RL 训练期间,模型未能在 SFT 模型已经产生的解之外进行显着的探索。此外,我们讨论了 SFT 训练期间 maj@1 和 pass@96 度量性能之间的取舍,并且相反,RL 训练同时改善了两者。最后,我们讨论了我们的发现对 RLHF 和 LLM 微调中 RL 的未来角色的影响。