大型语言模型的人类对齐通过在线偏好优化
利用人类反馈进行强化学习,用于与人类偏好一致的大型语言模型的行为对齐,提出了一个改进的 Direct Policy Optimization 方法,结合在线微调的语言模型使用内在知识来估计积极和消极响应的质量,以此改善训练结果,并实验证明其在多个评估者上比传统方法有更好的性能。
May, 2024
本文研究了大规模语言模型(LLMs)对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析 RLHF 和 DPO 的稳定性和鲁棒性,我们提出了一种新方法 MPO(混合偏好优化),该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程:首先在一个简单的数据集上对 DPO 进行训练,然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行,即 HH-RLHF 和 TLDR,展示了 MPO 的有效性,无论是在 GPT4 上还是人类评估上。
Mar, 2024
利用人类比较数据和强化学习通过 Reinforcement Learning from Human Feedback (RLHF) 方法对大规模语言模型(LLMs)进行微调,以使其更好地与用户偏好相匹配。与 LLMs 相比,文本到图像扩散模型中人类偏好学习的探索较少;目前最佳方法是使用经过精心筛选的高质量图像和标题对预训练模型进行微调,以提高视觉吸引力和文本对齐性。我们提出 Diffusion-DPO 方法,通过在人类比较数据上进行直接优化,使扩散模型与人类偏好相匹配。Diffusion-DPO 从最近开发的直接偏好优化(DPO)中进行适应,DPO 是对最佳满足分类目标下人类偏好的策略直接进行优化的更简单的方法。我们重新制定 DPO 以考虑扩散模型的似然概念,利用证据下界导出可微分的目标函数。利用 Pick-a-Pic 数据集中的 851K 个众包成对偏好,我们使用 Diffusion-DPO 对最先进的稳定扩散 XL(SDXL)-1.0 模型的基础模型进行微调。我们微调后的基础模型在人工评估中显著优于基础 SDXL-1.0 模型和额外的改进模型,从而提高了视觉吸引力和提示对齐。我们还开发了一个使用 AI 反馈并具有与基于人类偏好训练相当性能的变体,为扩展扩散模型对齐方法打开了大门。
Nov, 2023
本文以游戏理论的角度,探讨了一种基于人类偏好与强化学习的算法,通过采用无懊悔学习,自我对抗的方式逼近纳什平衡策略,从而解决了大规模语言模型对人类反馈的规模性计算问题。实验证明该算法相较于之前的方法在不考虑个体响应的预期胜率的情况下能够取得更好的结果。
Jun, 2024
在线学习对于语言模型的对齐与优化是至关重要的,本文提出了一种基于双层优化的在线对齐方法,并通过探索回应和调节偏好标签来迭代生成新样本和改进模型对齐效果,以实现自我提升和广义化先前的在线学习方法。这种方法相比于现有的迭代在线学习方法,在开源数据集上显著提高了对齐性能,并具有极小的计算开销。
Jun, 2024
这篇论文介绍了一种重要的技术 —— 偏好学习,其中 Reinforcement Learning from Human Feedback(RLHF)是一种优化偏好学习的模型算法,通过对偏好得分建立奖励模型并优化生成策略;为了提高数据效率和稳定性,提出了使用离策略算法进行直接优化生成策略的 Direct Preference Optimization(DPO)算法;通过增加离策略 KL 正则化项实现了 KL 正则化的真正有效性。
Dec, 2023
使用 Listwise Preference Optimization 框架对语言模型进行排名问题的对齐,将 LiPO-λ 方法与传统的 DPO 和 SLiC 方法相比,在两项偏好对齐任务中明显表现更好。
Feb, 2024
本文提出了一种称为 DPO(Direct Preference Optimization)的算法来解决无监督语言模型中的可控性问题,并在实验中表明,相较于传统的 RLHF 方法,DPO 不仅表现更好,而且更加稳定和简单。
May, 2023
使用在线 AI 反馈(OAIF)方法,通过模型间的直接对齐以及获得在线反馈,我们证明其在几项任务中均优于离线的 DAP 和 RLHF 方法,并且还展示了 OAIF 方法中的反馈是易于控制的。
Feb, 2024
通过引入一种称为统计拒绝采样优化 (RSO) 的新方法,我们能更准确地从目标最优策略中获取偏好数据,并提出了一个统一框架,从偏好建模的角度增强了 SLiC 和 DPO 中所使用的损失函数。通过在三个不同任务上进行广泛的实验,我们证明了 RSO 在来自大型语言模型 (LLM) 和人类评估者的评估中一致优于 SLiC 和 DPO。
Sep, 2023