无参考对齐扩散模型的边缘感知优化

Jun, 2024

无参考对齐扩散模型的边缘感知优化

Margin-aware Preference Optimization for Aligning Diffusion Models without Reference

Jiwoo Hong, Sayak Paul, Noah Lee, Kashif Rasul, James Thorne...

TL;DR基于最近的文本到图像扩散模型，我们提出一种新颖且内存友好的偏好对齐方法，名为 MaPO，它通过最大化喜欢和不喜欢的图像集之间的可能性间隔以及喜欢图像集的可能性来同时学习一般风格特征和偏好，实验证明 MaPO 在处理参考不匹配时能显著提高对齐性能。

Abstract

Modern alignment techniques based on human preferences, such as RLHF and DPO, typically employ divergence regularization relative to the reference model to ensure training stability. However, this often limits the flexibility of models during alignment, especially when there is a clear

alignment techniques reference mismatch diffusion models preference alignment margin-aware preference optimization

发现论文，激发创造

直接偏好优化的扩散模型对齐

利用人类比较数据和强化学习通过 Reinforcement Learning from Human Feedback (RLHF) 方法对大规模语言模型（LLMs）进行微调，以使其更好地与用户偏好相匹配。与 LLMs 相比，文本到图像扩散模型中人类偏好学习的探索较少；目前最佳方法是使用经过精心筛选的高质量图像和标题对预训练模型进行微调，以提高视觉吸引力和文本对齐性。我们提出 Diffusion-DPO 方法，通过在人类比较数据上进行直接优化，使扩散模型与人类偏好相匹配。Diffusion-DPO 从最近开发的直接偏好优化（DPO）中进行适应，DPO 是对最佳满足分类目标下人类偏好的策略直接进行优化的更简单的方法。我们重新制定 DPO 以考虑扩散模型的似然概念，利用证据下界导出可微分的目标函数。利用 Pick-a-Pic 数据集中的 851K 个众包成对偏好，我们使用 Diffusion-DPO 对最先进的稳定扩散 XL（SDXL）-1.0 模型的基础模型进行微调。我们微调后的基础模型在人工评估中显著优于基础 SDXL-1.0 模型和额外的改进模型，从而提高了视觉吸引力和提示对齐。我们还开发了一个使用 AI 反馈并具有与基于人类偏好训练相当性能的变体，为扩展扩散模型对齐方法打开了大门。

Nov, 2023

用噪声条件化感知调整扩散模型

通过在扩散模型的内嵌空间中优化感知目标，我们提出了一种方法，使用直接偏好优化 (DPO)、对比偏好优化 (CPO) 和监督微调 (SFT) 来显著提高扩散模型的效率和质量，同时降低了计算成本。

Jun, 2024

Diffusion-RPO：通过相对偏好优化对齐扩散模型

Diffusion-RPO 是一种新的方法，旨在更有效地将基于扩散的 T2I 模型与人类偏好对齐。我们引入了一种新的评估指标，即风格对齐，旨在克服当前人类偏好对齐评估中普遍存在的高成本、低可重复性和有限可解释性的挑战。研究结果表明，Diffusion-RPO 在调整 Stable Diffusion 版本 1.5 和 XL-1.0 时，优于监督微调和 Diffusion-DPO 等已有方法，在自动评估人类偏好和风格对齐方面取得了卓越的结果。

Jun, 2024

混合偏好优化：通过数据选择和更好的参考模型进行强化学习

本文研究了大规模语言模型（LLMs）对齐的两种主要方法：强化学习与人类反馈（RLHF）以及基于对比学习的直接偏好优化（DPO）。通过分析 RLHF 和 DPO 的稳定性和鲁棒性，我们提出了一种新方法 MPO（混合偏好优化），该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程：首先在一个简单的数据集上对 DPO 进行训练，然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行，即 HH-RLHF 和 TLDR，展示了 MPO 的有效性，无论是在 GPT4 上还是人类评估上。

Mar, 2024

大型语言模型的多参考偏好优化

如何使大型语言模型与人类意图和价值相吻合？通过引入多个参考模型的直接偏好优化方法，我们提出了一种新的闭式表达式，名为多参考模型偏好优化（MRPO），从多样化的参考模型中利用更广泛的先验知识，显著增强了偏好学习能力。我们的实验证明，使用 MRPO 微调的大型语言模型在各种偏好数据中都具有更好的泛化能力，无论数据稀缺还是丰富。此外，MRPO 有效地使大型语言模型在 GSM8K 和 TruthfulQA 等多个下游自然语言处理任务中表现出优越性能。

May, 2024

步骤感知的偏好优化：在每个步骤中将偏好与去噪性能对齐

我们提出了一种 Step-aware Preference Optimization (SPO) 的方法，通过独立评估和调整每个步骤的去噪性能，在对生成图像进行偏好调整时改进了 Diffusion-DPO 方法的训练效率和图像质量。

Jun, 2024

自我增强偏好优化：语言模型对齐的离线策略范式

通过引入自我增强式优化（SAPO）方法，本研究提出了一种有效和可扩展的训练范式 —— 自我增强式偏好优化，不依赖于现有的配对数据，通过自我对弈生成负面响应，并结合离线对比基线和历史数据的实时反馈来动态更新响应段，从而匹配或超过现有离线对比的基线方法，如 Direct Preference Optimization 和 Odds Ratio Preference Optimization，同时优于离线自我对弈方法，如 SPIN。

May, 2024

多模态 LLMs 中的对齐理解：一项全面研究

多模态大语言模型中，偏好对齐是增强模型性能的关键组成部分，但其在多模态大语言模型中的影响相对较少探索。本文独立分析了多模态大语言模型中偏好对齐的各个方面，包括对齐算法、多模态偏好数据集的构建细节以及无偏驱动幻觉采样的引入。实验表明，将离线和在线方法相结合可在某些情况下提高模型性能。

Jul, 2024

mDPO: 多模态大型语言模型的条件偏好优化

通过比较性实验，我们识别出多模态偏好优化中的无条件偏好问题，并提出 mDPO，一种多模态 DPO 目标，通过优化图像偏好来避免只优化语言偏好。同时引入一种奖励锚点，强制奖励对于选择的回答是正面的，从而避免相对偏好优化的内在问题。在两种不同规模的多模态 LLM 和三个广泛使用的基准测试中进行的实验表明，mDPO 在处理多模态偏好优化的无条件偏好问题上是有效的，并在模型性能方面取得了显著改进，尤其是在减少幻觉方面。

Jun, 2024

MoDiPO: 通过 AI 反馈驱动的直接偏好优化实现文本到动作对齐

通过使用 MoDiPO（运动扩散 DPO）方法，该研究提出了一种新的方法，通过使用直接优化偏好来对齐文本到运动模型，以便生成更加真实的动作。

May, 2024