基于 PPO 的 RLHF 的 N + 实现细节:TL;DR 摘要的案例研究
RRHF 是一种新的学习范式,通过排名损失函数对生成的回答进行评分,从而能够有效地将语言模型输出与人类偏好对齐,而且只需要 1 到 2 个模型进行调整,效果与微调相当。
Apr, 2023
大型语言模型对人工通用智能发展提出了一个使命,与人类对齐是其最重要的挑战,强化学习与人类反馈是支撑此追求的关键技术,并探讨了在 PPO 算法中影响策略代理训练的部件,并提出了 PPO-max 增强版本以提高策略模型的训练稳定性,总结了与 SFT 模型和 ChatGPT 相比的 RLHF 能力的全面分析。
Jul, 2023
Reinforcement Learning with Human Feedback (RLHF) revolutionized language modeling by aligning models with human preferences. This paper presents the memory usage, performance, and training time analysis of memory-savings techniques for Proximal Policy Optimization (PPO). The proposed Hydra-RLHF integrates Supervised Fine-Tuning (SFT) and Reward models and dynamically turns LoRA 'off' during training, reducing memory usage and improving alignment across benchmarks. Resulting in a simple and promising solution, Hydra-PPO enables more widespread usage of RLHF.
Sep, 2023
通过改进 Proximal Policy Optimization,使用 REINFORCE-style optimization 的方法在低成本情况下实现在线强化学习优化,从而提高 AI 对人类反馈的 RLHF 的性能。
Feb, 2024
基于大型语言模型对齐的一种新方法 SuperHF,旨在解决安全性、人类价值的对齐以及训练稳定性方面的挑战。SuperHF 结合了 Supervised Fine-Tuning 和 Reinforcement Learning from Human Feedback 的优点,并通过替换 PPO 算法和引入 KL divergence 先验,提出了一种新的训练方法。实验结果表明,SuperHF 在训练目标、奖励优化和模型性能等方面表现优于基于 PPO 的 RLHF,具有竞争力的语言模型对齐技术。
Oct, 2023
从人类反馈中进行强化学习(RLHF)已成为将 LLM 输出与人类偏好对齐的一种主要方法。受 RLHF 成功的启发,我们研究了从反馈中学习(Expert Iteration,Proximal Policy Optimization(PPO),Return-Conditioned RL)对改善 LLM 推理能力的多种算法的性能。我们通过启发式和学习的奖励模型为 LLM 提供了稀疏和密集奖励。我们还从多种模型尺寸和初始化状态,包括有和没有经过监督微调(SFT)数据的情况开始研究。总的来说,我们发现所有算法的性能相当,大多数情况下 Expert Iteration 的性能最佳。令人惊讶的是,我们发现 Expert Iteration 的样本复杂度与 PPO 相似,需要最多约 $10^6$ 个样本从预训练检查点收敛。我们研究了为什么会这样,并得出结论,在 RL 训练期间,模型未能在 SFT 模型已经产生的解之外进行显着的探索。此外,我们讨论了 SFT 训练期间 maj@1 和 pass@96 度量性能之间的取舍,并且相反,RL 训练同时改善了两者。最后,我们讨论了我们的发现对 RLHF 和 LLM 微调中 RL 的未来角色的影响。
Mar, 2024
应用偏好建模和强化学习的方法将语言模型优化为有帮助和无害的助手,对几乎所有的自然语言处理评估表现都有提高,与训练针对特定技能(如 Python 编程和摘要)的方法相容。通过迭代在线模式的训练,每周使用新的人类反馈数据更新偏好模型和强化学习策略,有效改进了数据集和模型。同时,研究了强化学习从人类反馈中学习的鲁棒性和重要性,提出了奖励和策略之间的 KL 散度平方根的近似线性关系。除此之外,对校准、竞争目标和 OOD 检测的使用进行了边缘分析,并将模型与人类作家进行了比较,并提供了使用最新相关工作中出现的提示的模型样本。
Apr, 2022
本研究通过发展新的强化学习方法,解决了基于喜好反馈的多轮对话中规划和多轮互动问题,通过实验证明该算法在教育对话环境中超越了基线模型,同时在含有明确奖励的环境中也能达到基于奖励强化学习模型的性能
May, 2024
从人类反馈中学习强化学习(RLHF)可以捕捉到文本生成质量的复杂和微妙的特性。本文探讨了偏好一致性对于文本摘要中 RLHF 的有效性的影响,通过展示人类偏好的采样范围包含一系列的标注者一致性,我们证明了(1)更高准确率的奖励模型和(2)所捕捉到的质量特征的改变。此外,当使用训练有一系列偏好一致性的奖励模型时,我们还展示了下游生成方面的改进。我们的贡献对于合成数据集的设计以及在比较性数据中考虑质量差异的重要性具有影响。
Nov, 2023
强化学习来自人类反馈是一种训练 AI 系统与人类目标对齐的技术,但其自身存在的问题、局限性以及相关改进技术的概述,以及提出用于改善社会监督的审计和公开标准的重要性。
Jul, 2023