RRHF 是一种新的学习范式,通过排名损失函数对生成的回答进行评分,从而能够有效地将语言模型输出与人类偏好对齐,而且只需要 1 到 2 个模型进行调整,效果与微调相当。
Apr, 2023
通过改进 Proximal Policy Optimization,使用 REINFORCE-style optimization 的方法在低成本情况下实现在线强化学习优化,从而提高 AI 对人类反馈的 RLHF 的性能。
Feb, 2024
本文研究了大规模语言模型(LLMs)对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析 RLHF 和 DPO 的稳定性和鲁棒性,我们提出了一种新方法 MPO(混合偏好优化),该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程:首先在一个简单的数据集上对 DPO 进行训练,然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行,即 HH-RLHF 和 TLDR,展示了 MPO 的有效性,无论是在 GPT4 上还是人类评估上。
Mar, 2024
提出了一种基于策略的奖励学习(RLP)无监督框架,通过使用策略样本来完善奖励模型,以保持其在分布上的一致性,实验结果表明 RLP 在三个基准数据集上始终优于现有技术。
大型语言模型对人工通用智能发展提出了一个使命,与人类对齐是其最重要的挑战,强化学习与人类反馈是支撑此追求的关键技术,并探讨了在 PPO 算法中影响策略代理训练的部件,并提出了 PPO-max 增强版本以提高策略模型的训练稳定性,总结了与 SFT 模型和 ChatGPT 相比的 RLHF 能力的全面分析。
Jul, 2023
基于大型语言模型对齐的一种新方法 SuperHF,旨在解决安全性、人类价值的对齐以及训练稳定性方面的挑战。SuperHF 结合了 Supervised Fine-Tuning 和 Reinforcement Learning from Human Feedback 的优点,并通过替换 PPO 算法和引入 KL divergence 先验,提出了一种新的训练方法。实验结果表明,SuperHF 在训练目标、奖励优化和模型性能等方面表现优于基于 PPO 的 RLHF,具有竞争力的语言模型对齐技术。
Oct, 2023
发展个性化语言模型的方法,结合用户模型和语言(或奖励)模型的学习目标,对个性化语言模型进行强化学习,以更好地满足用户偏好。
在线学习对于语言模型的对齐与优化是至关重要的,本文提出了一种基于双层优化的在线对齐方法,并通过探索回应和调节偏好标签来迭代生成新样本和改进模型对齐效果,以实现自我提升和广义化先前的在线学习方法。这种方法相比于现有的迭代在线学习方法,在开源数据集上显著提高了对齐性能,并具有极小的计算开销。
Jun, 2024
通过模型中人类反馈的学习,改进大型语言模型(LLMs)的输出与人类期望的一致性,利用人类反馈信号中以响应对的排名形式的强化学习,研究使用自然语言反馈模型的数据效率,通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进,提高了模型的响应质量。
Nov, 2023
通过将来自人类反馈的强化学习应用于语言模型,本研究综合探索和比较不同技术,通过引入奖励模型提高机器翻译的质量,并发现有效的数据过滤和结合奖励模型与排名技术能显著提高翻译质量。