大型语言模型的主动偏好学习
本文研究了大规模语言模型(LLMs)对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析 RLHF 和 DPO 的稳定性和鲁棒性,我们提出了一种新方法 MPO(混合偏好优化),该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程:首先在一个简单的数据集上对 DPO 进行训练,然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行,即 HH-RLHF 和 TLDR,展示了 MPO 的有效性,无论是在 GPT4 上还是人类评估上。
Mar, 2024
本文提出了一种称为 DPO(Direct Preference Optimization)的算法来解决无监督语言模型中的可控性问题,并在实验中表明,相较于传统的 RLHF 方法,DPO 不仅表现更好,而且更加稳定和简单。
May, 2023
大型语言模型的对齐问题是一个复杂的挑战,本文提出了混合偏好优化(HPO)方法,通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化,同时在各种具有挑战性的基准和模型规模上保持了对齐性能。
May, 2024
利用 DPO 和最大期望适应机制,通过生成模型的混合来对齐不同人类偏好的生成模型,同时引入极小极大后悔集成学习模型以在类似潜在因素的注释者子组之间最小化最坏情况后悔,实验证实了方法在产生公正生成策略方面的有效性。
May, 2024
使用直接偏好优化(DPO)的隐式奖励模型,我们提出了自对齐方法,命名为 DPO 隐式奖励自对齐(DICE),以改进大语言模型的对齐性能和质量。
Jun, 2024
这篇论文介绍了一种重要的技术 —— 偏好学习,其中 Reinforcement Learning from Human Feedback(RLHF)是一种优化偏好学习的模型算法,通过对偏好得分建立奖励模型并优化生成策略;为了提高数据效率和稳定性,提出了使用离策略算法进行直接优化生成策略的 Direct Preference Optimization(DPO)算法;通过增加离策略 KL 正则化项实现了 KL 正则化的真正有效性。
Dec, 2023
利用人类比较数据和强化学习通过 Reinforcement Learning from Human Feedback (RLHF) 方法对大规模语言模型(LLMs)进行微调,以使其更好地与用户偏好相匹配。与 LLMs 相比,文本到图像扩散模型中人类偏好学习的探索较少;目前最佳方法是使用经过精心筛选的高质量图像和标题对预训练模型进行微调,以提高视觉吸引力和文本对齐性。我们提出 Diffusion-DPO 方法,通过在人类比较数据上进行直接优化,使扩散模型与人类偏好相匹配。Diffusion-DPO 从最近开发的直接偏好优化(DPO)中进行适应,DPO 是对最佳满足分类目标下人类偏好的策略直接进行优化的更简单的方法。我们重新制定 DPO 以考虑扩散模型的似然概念,利用证据下界导出可微分的目标函数。利用 Pick-a-Pic 数据集中的 851K 个众包成对偏好,我们使用 Diffusion-DPO 对最先进的稳定扩散 XL(SDXL)-1.0 模型的基础模型进行微调。我们微调后的基础模型在人工评估中显著优于基础 SDXL-1.0 模型和额外的改进模型,从而提高了视觉吸引力和提示对齐。我们还开发了一个使用 AI 反馈并具有与基于人类偏好训练相当性能的变体,为扩展扩散模型对齐方法打开了大门。
Nov, 2023
通过引入 Constrained DPO (C-DPO) 方法,本研究提出了一种高效且轻量级的方法,用于在基于人类反馈的强化学习 fine-tuning 阶段强制执行安全约束,从而在同时提高 AI 系统的有用性和安全性方面找到了几乎最优的平衡点。
Mar, 2024
通过对人类偏好进行学习的强化学习(RLHF)部署依赖于两个重要的近似:第一个假设可以用点奖励替代成对偏好;第二个假设在这些点奖励上训练的奖励模型可以从策略采样的超出分布数据中进行泛化。最近,直接偏好优化(DPO)被提出作为一种绕过第二个近似并直接从收集到的数据中学习策略的方法。然而,该方法仍然严重依赖于第一个近似。本文尝试对这些实际算法进行更深入的理论理解。特别是,我们推导出一种新的称为 ΨPO 的通用目标,用成对偏好表示,从而绕过了两个近似。这个新的通用目标使我们能够对 RLHF 和 DPO 的行为进行深入分析(作为 ΨPO 的特殊情况),并确定它们的潜在缺陷。然后,我们通过将 Ψ 简单地设置为 Identity 来考虑 ΨPO 的另一种特殊情况,在此情况下,我们可以推导出一个有效的优化过程,证明其性能保证,并在一些示例中展示其在实证上优于 DPO。
Oct, 2023