Diffusion-RPO：通过相对偏好优化对齐扩散模型

Jun, 2024

Diffusion-RPO：通过相对偏好优化对齐扩散模型

Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization

Yi Gu, Zhendong Wang, Yueqin Yin, Yujia Xie, Mingyuan Zhou

TL;DRDiffusion-RPO 是一种新的方法，旨在更有效地将基于扩散的 T2I 模型与人类偏好对齐。我们引入了一种新的评估指标，即风格对齐，旨在克服当前人类偏好对齐评估中普遍存在的高成本、低可重复性和有限可解释性的挑战。研究结果表明，Diffusion-RPO 在调整 Stable Diffusion 版本 1.5 和 XL-1.0 时，优于监督微调和 Diffusion-DPO 等已有方法，在自动评估人类偏好和风格对齐方面取得了卓越的结果。

Abstract

Aligning large language models with human preferences has emerged as a critical focus in language modeling research. Yet, integrating preference learning into Text-to-Image (T2I) generative models is still relati

large language models preference learning text-to-image generative models diffusion-rpo human preferences

发现论文，激发创造

直接偏好优化的扩散模型对齐

利用人类比较数据和强化学习通过 Reinforcement Learning from Human Feedback (RLHF) 方法对大规模语言模型（LLMs）进行微调，以使其更好地与用户偏好相匹配。与 LLMs 相比，文本到图像扩散模型中人类偏好学习的探索较少；目前最佳方法是使用经过精心筛选的高质量图像和标题对预训练模型进行微调，以提高视觉吸引力和文本对齐性。我们提出 Diffusion-DPO 方法，通过在人类比较数据上进行直接优化，使扩散模型与人类偏好相匹配。Diffusion-DPO 从最近开发的直接偏好优化（DPO）中进行适应，DPO 是对最佳满足分类目标下人类偏好的策略直接进行优化的更简单的方法。我们重新制定 DPO 以考虑扩散模型的似然概念，利用证据下界导出可微分的目标函数。利用 Pick-a-Pic 数据集中的 851K 个众包成对偏好，我们使用 Diffusion-DPO 对最先进的稳定扩散 XL（SDXL）-1.0 模型的基础模型进行微调。我们微调后的基础模型在人工评估中显著优于基础 SDXL-1.0 模型和额外的改进模型，从而提高了视觉吸引力和提示对齐。我们还开发了一个使用 AI 反馈并具有与基于人类偏好训练相当性能的变体，为扩展扩散模型对齐方法打开了大门。

Nov, 2023

相对偏好优化：通过对相同和不同提示的对比响应来增强 LLM 对齐

通过对比加权机制，Relative Preference Optimization (RPO) 提出了一种针对大型语言模型的优化方法，提高了模型对用户偏好的理解能力，并在训练过程中提高了适应性。

Feb, 2024

用噪声条件化感知调整扩散模型

通过在扩散模型的内嵌空间中优化感知目标，我们提出了一种方法，使用直接偏好优化 (DPO)、对比偏好优化 (CPO) 和监督微调 (SFT) 来显著提高扩散模型的效率和质量，同时降低了计算成本。

Jun, 2024

课程定向优化策略：扩散和一致性模型

该论文介绍了一种基于课程学习的新颖增强版 Direct Preference Optimization（DPO）方法，用于文本到图像生成，在三个基准测试中胜过了其他方法，包括文本对齐、美学和人类首选项等方面。

May, 2024

无参考对齐扩散模型的边缘感知优化

基于最近的文本到图像扩散模型，我们提出一种新颖且内存友好的偏好对齐方法，名为 MaPO，它通过最大化喜欢和不喜欢的图像集之间的可能性间隔以及喜欢图像集的可能性来同时学习一般风格特征和偏好，实验证明 MaPO 在处理参考不匹配时能显著提高对齐性能。

Jun, 2024

RS-DPO：一种用于大型语言模型对齐的混合拒绝抽样和直接偏好优化方法

通过系统地结合拒绝采样和直接偏好优化方法，我们提出的 RS-DPO 方法能够有效地在资源有限的环境中对大型语言模型进行精调，提高其与用户意图的一致性，并且胜过 RS、PPO 和 DPO 等现有方法。

Feb, 2024

通过 AI 反馈直接偏好优化提升您自己的人像生成模型

通过使用直接偏好优化（DPO）的人体图像生成方法以及改进的损失函数，本文在人体图像生成领域取得了显著进展，达到了自然解剖结构、姿势和文本 - 图像对齐方面的优越结果。

May, 2024

文本 - 图像扩散与偏好的密集奖励观点对齐

通过引入时间折扣机制以适应 T2I 生成层次结构，本文提出了一种可行的对齐目标，强调 T2I 反向链中的初始步骤，实验证明该方法在单个和多个提示生成方面与相关基线方法具有竞争力。

Feb, 2024

利用人类反馈对扩散模型进行微调，无需任何奖励模型

使用直接偏好优化方法直接优化扩散模型，在不需要训练奖励模型的情况下，通过相对目标的比例作为人类偏好的代理实现了可比较的结果，减少了图像畸变率并生成了更安全的图像。

Nov, 2023

MoDiPO: 通过 AI 反馈驱动的直接偏好优化实现文本到动作对齐

通过使用 MoDiPO（运动扩散 DPO）方法，该研究提出了一种新的方法，通过使用直接优化偏好来对齐文本到运动模型，以便生成更加真实的动作。

May, 2024