SuperHF:基于人类反馈的监督式迭代学习
RRHF 是一种新的学习范式,通过排名损失函数对生成的回答进行评分,从而能够有效地将语言模型输出与人类偏好对齐,而且只需要 1 到 2 个模型进行调整,效果与微调相当。
Apr, 2023
从人类反馈中进行强化学习(RLHF)已成为将 LLM 输出与人类偏好对齐的一种主要方法。受 RLHF 成功的启发,我们研究了从反馈中学习(Expert Iteration,Proximal Policy Optimization(PPO),Return-Conditioned RL)对改善 LLM 推理能力的多种算法的性能。我们通过启发式和学习的奖励模型为 LLM 提供了稀疏和密集奖励。我们还从多种模型尺寸和初始化状态,包括有和没有经过监督微调(SFT)数据的情况开始研究。总的来说,我们发现所有算法的性能相当,大多数情况下 Expert Iteration 的性能最佳。令人惊讶的是,我们发现 Expert Iteration 的样本复杂度与 PPO 相似,需要最多约 $10^6$ 个样本从预训练检查点收敛。我们研究了为什么会这样,并得出结论,在 RL 训练期间,模型未能在 SFT 模型已经产生的解之外进行显着的探索。此外,我们讨论了 SFT 训练期间 maj@1 和 pass@96 度量性能之间的取舍,并且相反,RL 训练同时改善了两者。最后,我们讨论了我们的发现对 RLHF 和 LLM 微调中 RL 的未来角色的影响。
Mar, 2024
Supervised Fine-Tuning (SFT) 和 Reinforcement Learning from Human Feedback (RLHF) 是增强语言模型(LMs)能力的两个基本过程,它们可以更好地与人类偏好相一致,然而当前常见的做法是简单地按顺序应用它们,而没有统一它们的优化目标,导致在适应不同目标之间存在权衡,并忽视了用两者的长处弥合这个范式差距的机会。为了统一理解,我们在马尔可夫决策过程(MDP)框架中通过两个子过程 —— 偏好估计和转移优化来解释了 SFT 和 RLHF。通过这种建模方式,我们发现 SFT 只是 RLHF 的一个特殊情况,其估计和优化能力较差。因此,SFT 高估了模型的能力,导致优化效果不佳。基于这个观点,我们引入了直观微调(IFT)将 SFT 和 RLHF 集成为一个单一过程。IFT 通过一个时间残差连接捕捉 LMs 对整个答案的直观感知,同时使用与 SFT 相同数量的非偏好标记数据和一个单一策略。我们的实验证明,IFT 在几个任务上,特别是那些需要生成、推理和遵循事实能力的任务上,表现出与 SFT 和一些典型的对齐方法相当甚至更优的性能。一个可解释的 Frozen Lake 游戏进一步验证了 IFT 的有效性。
May, 2024
大型语言模型对人工通用智能发展提出了一个使命,与人类对齐是其最重要的挑战,强化学习与人类反馈是支撑此追求的关键技术,并探讨了在 PPO 算法中影响策略代理训练的部件,并提出了 PPO-max 增强版本以提高策略模型的训练稳定性,总结了与 SFT 模型和 ChatGPT 相比的 RLHF 能力的全面分析。
Jul, 2023
对齐人类偏好和价值是当代基础模型的重要需求。本研究提出了一种基于逆强化学习的监督微调方法,通过学习奖励模型来代替直接使用人类示范数据,并且在整个对齐过程中从始至终地利用奖励学习,取得了显著的性能提升。
May, 2024
Reinforcement Learning with Human Feedback (RLHF) revolutionized language modeling by aligning models with human preferences. This paper presents the memory usage, performance, and training time analysis of memory-savings techniques for Proximal Policy Optimization (PPO). The proposed Hydra-RLHF integrates Supervised Fine-Tuning (SFT) and Reward models and dynamically turns LoRA 'off' during training, reducing memory usage and improving alignment across benchmarks. Resulting in a simple and promising solution, Hydra-PPO enables more widespread usage of RLHF.
Sep, 2023
通过改进 Proximal Policy Optimization,使用 REINFORCE-style optimization 的方法在低成本情况下实现在线强化学习优化,从而提高 AI 对人类反馈的 RLHF 的性能。
Feb, 2024
我们介绍了在线迭代强化学习(RLHF)的工作流程,通过构建偏好模型和使用监督微调和迭代 RLHF,我们在大规模语言模型方面取得了令人印象深刻的性能,通过详细的实现指南,我们提供了一种易于复现的在线迭代 RLHF 方法。
May, 2024
通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础,重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱,以及它们对训练算法的影响,同时揭示了当前方法的局限性。通过对现有文献的分类评论,我们对 RLHF 的挑战进行了描述,为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。
Apr, 2024