课程定向优化策略：扩散和一致性模型

May, 2024

课程定向优化策略：扩散和一致性模型

Curriculum Direct Preference Optimization for Diffusion and Consistency Models

Florinel-Alin Croitoru, Vlad Hondru, Radu Tudor Ionescu, Nicu Sebe, Mubarak Shah

TL;DR该论文介绍了一种基于课程学习的新颖增强版 Direct Preference Optimization（DPO）方法，用于文本到图像生成，在三个基准测试中胜过了其他方法，包括文本对齐、美学和人类首选项等方面。

Abstract

direct preference optimization (DPO) has been proposed as an effective and efficient alternative to reinforcement learning from human feedback (RLHF). In this paper, we propose a novel and enhanced version of DPO

direct preference optimization reinforcement learning text-to-image generation curriculum learning rank difference

发现论文，激发创造

Curry-DPO: 借助课程学习和排序偏好增强对齐性

使用 Curry-DPO 方法，从容法从易到难地利用构建的多个优先配对数据进行 DPO 训练，相对于标准的单对 DPO 设置，在多个指标上表现出明显的性能提升。

Mar, 2024

直接偏好优化的扩散模型对齐

利用人类比较数据和强化学习通过 Reinforcement Learning from Human Feedback (RLHF) 方法对大规模语言模型（LLMs）进行微调，以使其更好地与用户偏好相匹配。与 LLMs 相比，文本到图像扩散模型中人类偏好学习的探索较少；目前最佳方法是使用经过精心筛选的高质量图像和标题对预训练模型进行微调，以提高视觉吸引力和文本对齐性。我们提出 Diffusion-DPO 方法，通过在人类比较数据上进行直接优化，使扩散模型与人类偏好相匹配。Diffusion-DPO 从最近开发的直接偏好优化（DPO）中进行适应，DPO 是对最佳满足分类目标下人类偏好的策略直接进行优化的更简单的方法。我们重新制定 DPO 以考虑扩散模型的似然概念，利用证据下界导出可微分的目标函数。利用 Pick-a-Pic 数据集中的 851K 个众包成对偏好，我们使用 Diffusion-DPO 对最先进的稳定扩散 XL（SDXL）-1.0 模型的基础模型进行微调。我们微调后的基础模型在人工评估中显著优于基础 SDXL-1.0 模型和额外的改进模型，从而提高了视觉吸引力和提示对齐。我们还开发了一个使用 AI 反馈并具有与基于人类偏好训练相当性能的变体，为扩展扩散模型对齐方法打开了大门。

Nov, 2023

Diffusion-RPO：通过相对偏好优化对齐扩散模型

Diffusion-RPO 是一种新的方法，旨在更有效地将基于扩散的 T2I 模型与人类偏好对齐。我们引入了一种新的评估指标，即风格对齐，旨在克服当前人类偏好对齐评估中普遍存在的高成本、低可重复性和有限可解释性的挑战。研究结果表明，Diffusion-RPO 在调整 Stable Diffusion 版本 1.5 和 XL-1.0 时，优于监督微调和 Diffusion-DPO 等已有方法，在自动评估人类偏好和风格对齐方面取得了卓越的结果。

Jun, 2024

利用人类反馈对扩散模型进行微调，无需任何奖励模型

使用直接偏好优化方法直接优化扩散模型，在不需要训练奖励模型的情况下，通过相对目标的比例作为人类偏好的代理实现了可比较的结果，减少了图像畸变率并生成了更安全的图像。

Nov, 2023

使用强化学习训练扩散模型

本文介绍了如何使用增强学习方法直接优化扩散模型以实现人类感知的图像质量和药物效果等下游目标，并提出了一种名为去噪扩散策略优化（DDPO）的类策略梯度算法，并进行了实证及效果验证。

May, 2023

用噪声条件化感知调整扩散模型

通过在扩散模型的内嵌空间中优化感知目标，我们提出了一种方法，使用直接偏好优化 (DPO)、对比偏好优化 (CPO) 和监督微调 (SFT) 来显著提高扩散模型的效率和质量，同时降低了计算成本。

Jun, 2024

滤波直接优化偏好

利用人类反馈进行强化学习在与人类倾向对齐的语言模型中起着关键作用。研究表明文本质量对于基于 Direct Preference Optimization (DPO) 进行优化的模型性能影响较大，而本文提出了一种扩展的 DPO 方法，即 filtered direct preference optimization (fDPO)，通过训练奖励模型来监控首选数据集中的文本质量，从而改善最终模型的性能。

Apr, 2024

Mallows-DPO: 用偏好离散来优化您的 LLM

Mallows-DPO 是一种新方法，利用人类偏好的分散度指数来改进直接偏好优化方法 (DPO)，从而提高强化学习与人类反馈的性能，适用于各类基准任务，如合成赌徒选择、可控生成和对话，同时保持良好的泛化能力。

May, 2024

通过合成数据对 LMLs 进行行为对齐的优化提炼直接偏好优化

提出一种称为 “rDPO” 的方法，通过自我批评引导创建合成数据，并利用广义的 DPO 损失函数蒸馏为学生 LLM，其中使用额外的外部奖励模型提高合成数据质量，从而改善大型语言模型的行为对齐。

Feb, 2024

通过奖励模型精华提高偏好鲁棒性优化

通过预训练、直接偏好优化和蒸馏方法，改进了离线对齐过程中偏好数据分布转移的鲁棒性，同时保留了简单的监督学习性质。

May, 2024