直接偏好优化的扩散模型对齐利用人类比较数据和强化学习通过 Reinforcement Learning from Human Feedback (RLHF) 方法对大规模语言模型(LLMs)进行微调,以使其更好地与用户偏好相匹配。与 LLMs 相比,文本到图像扩散模型中人类偏好学习的探索较少;目前最佳方法是使用经过精心筛选的高质量图像和标题对预训练模型进行微调,以提高视觉吸引力和文本对齐性。我们提出 Diffusion-DPO 方法,通过在人类比较数据上进行直接优化,使扩散模型与人类偏好相匹配。Diffusion-DPO 从最近开发的直接偏好优化(DPO)中进行适应,DPO 是对最佳满足分类目标下人类偏好的策略直接进行优化的更简单的方法。我们重新制定 DPO 以考虑扩散模型的似然概念,利用证据下界导出可微分的目标函数。利用 Pick-a-Pic 数据集中的 851K 个众包成对偏好,我们使用 Diffusion-DPO 对最先进的稳定扩散 XL(SDXL)-1.0 模型的基础模型进行微调。我们微调后的基础模型在人工评估中显著优于基础 SDXL-1.0 模型和额外的改进模型,从而提高了视觉吸引力和提示对齐。我们还开发了一个使用 AI 反馈并具有与基于人类偏好训练相当性能的变体,为扩展扩散模型对齐方法打开了大门。
Nov, 2023