利用人类反馈对扩散模型进行微调,无需任何奖励模型
利用人类比较数据和强化学习通过 Reinforcement Learning from Human Feedback (RLHF) 方法对大规模语言模型(LLMs)进行微调,以使其更好地与用户偏好相匹配。与 LLMs 相比,文本到图像扩散模型中人类偏好学习的探索较少;目前最佳方法是使用经过精心筛选的高质量图像和标题对预训练模型进行微调,以提高视觉吸引力和文本对齐性。我们提出 Diffusion-DPO 方法,通过在人类比较数据上进行直接优化,使扩散模型与人类偏好相匹配。Diffusion-DPO 从最近开发的直接偏好优化(DPO)中进行适应,DPO 是对最佳满足分类目标下人类偏好的策略直接进行优化的更简单的方法。我们重新制定 DPO 以考虑扩散模型的似然概念,利用证据下界导出可微分的目标函数。利用 Pick-a-Pic 数据集中的 851K 个众包成对偏好,我们使用 Diffusion-DPO 对最先进的稳定扩散 XL(SDXL)-1.0 模型的基础模型进行微调。我们微调后的基础模型在人工评估中显著优于基础 SDXL-1.0 模型和额外的改进模型,从而提高了视觉吸引力和提示对齐。我们还开发了一个使用 AI 反馈并具有与基于人类偏好训练相当性能的变体,为扩展扩散模型对齐方法打开了大门。
Nov, 2023
本文提出了一种称为 DPO(Direct Preference Optimization)的算法来解决无监督语言模型中的可控性问题,并在实验中表明,相较于传统的 RLHF 方法,DPO 不仅表现更好,而且更加稳定和简单。
May, 2023
扩展了基于人类反馈训练的静态扩散模型生成算法,提出了基于像素的策略优化算法 (PXPO),通过针对每个像素提供更细致的奖励给模型。
Apr, 2024
利用人类反馈进行强化学习在与人类倾向对齐的语言模型中起着关键作用。研究表明文本质量对于基于 Direct Preference Optimization (DPO) 进行优化的模型性能影响较大,而本文提出了一种扩展的 DPO 方法,即 filtered direct preference optimization (fDPO),通过训练奖励模型来监控首选数据集中的文本质量,从而改善最终模型的性能。
Apr, 2024
利用 DPO 和最大期望适应机制,通过生成模型的混合来对齐不同人类偏好的生成模型,同时引入极小极大后悔集成学习模型以在类似潜在因素的注释者子组之间最小化最坏情况后悔,实验证实了方法在产生公正生成策略方面的有效性。
May, 2024
利用人类反馈进行强化学习,用于与人类偏好一致的大型语言模型的行为对齐,提出了一个改进的 Direct Policy Optimization 方法,结合在线微调的语言模型使用内在知识来估计积极和消极响应的质量,以此改善训练结果,并实验证明其在多个评估者上比传统方法有更好的性能。
May, 2024
本文研究了大规模语言模型(LLMs)对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析 RLHF 和 DPO 的稳定性和鲁棒性,我们提出了一种新方法 MPO(混合偏好优化),该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程:首先在一个简单的数据集上对 DPO 进行训练,然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行,即 HH-RLHF 和 TLDR,展示了 MPO 的有效性,无论是在 GPT4 上还是人类评估上。
Mar, 2024
本文介绍了如何使用增强学习方法直接优化扩散模型以实现人类感知的图像质量和药物效果等下游目标,并提出了一种名为去噪扩散策略优化(DDPO)的类策略梯度算法,并进行了实证及效果验证。
May, 2023
通过系统比较强化学习从人类反馈中学习的范例与最近提出的直接偏好优化范例,我们向更深入地理解从人类偏好中学习迈进了一步。我们集中关注对数线性策略参数化和线性奖励函数的类别。
Mar, 2024
通过对人类偏好进行学习的强化学习(RLHF)部署依赖于两个重要的近似:第一个假设可以用点奖励替代成对偏好;第二个假设在这些点奖励上训练的奖励模型可以从策略采样的超出分布数据中进行泛化。最近,直接偏好优化(DPO)被提出作为一种绕过第二个近似并直接从收集到的数据中学习策略的方法。然而,该方法仍然严重依赖于第一个近似。本文尝试对这些实际算法进行更深入的理论理解。特别是,我们推导出一种新的称为 ΨPO 的通用目标,用成对偏好表示,从而绕过了两个近似。这个新的通用目标使我们能够对 RLHF 和 DPO 的行为进行深入分析(作为 ΨPO 的特殊情况),并确定它们的潜在缺陷。然后,我们通过将 Ψ 简单地设置为 Identity 来考虑 ΨPO 的另一种特殊情况,在此情况下,我们可以推导出一个有效的优化过程,证明其性能保证,并在一些示例中展示其在实证上优于 DPO。
Oct, 2023