DPOK: 用强化学习对文本到图像扩散模型进行微调

May, 2023

DPOK: 用强化学习对文本到图像扩散模型进行微调

DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models

Ying Fan, Olivia Watkins, Yuqing Du, Hao Liu, Moonkyung Ryu...

TL;DR该研究提出了使用在线强化学习对文本到图像模型进行微调的方法，名为 DPOK，该方法将策略优化和 KL 正则化集成在一起，并通过增强学习来更新预训练的文本到图像扩散模型，实验证明该方法在图像文本对齐和图像质量方面优于监督式微调。

Abstract

Learning from human feedback has been shown to improve text-to-image models. These techniques first learn a reward function that captures what humans care about in the task and then improve the models based on the learned reward function. Even though relatively simple approaches (e.g.,

text-to-image models online reinforcement learning policy optimization kl regularization image-text alignment

发现论文，激发创造

利用人类反馈对扩散模型进行微调，无需任何奖励模型

使用直接偏好优化方法直接优化扩散模型，在不需要训练奖励模型的情况下，通过相对目标的比例作为人类偏好的代理实现了可比较的结果，减少了图像畸变率并生成了更安全的图像。

Nov, 2023

基于扩散模型的像素级强化学习：从丰富反馈中进行强化学习

扩展了基于人类反馈训练的静态扩散模型生成算法，提出了基于像素的策略优化算法 (PXPO)，通过针对每个像素提供更细致的奖励给模型。

Apr, 2024

使用强化学习训练扩散模型

本文介绍了如何使用增强学习方法直接优化扩散模型以实现人类感知的图像质量和药物效果等下游目标，并提出了一种名为去噪扩散策略优化（DDPO）的类策略梯度算法，并进行了实证及效果验证。

May, 2023

大规模强化学习用于扩散模型

本文介绍了一种有效可扩展的算法，利用强化学习（RL）在各种奖励函数上改进扩散模型，包括人类偏好、组合性和公平性，从而有效地解决了扩散模型与人类偏好不一致的问题，同时提高了生成样本的组合性和多样性。

Jan, 2024

直接偏好优化的扩散模型对齐

利用人类比较数据和强化学习通过 Reinforcement Learning from Human Feedback (RLHF) 方法对大规模语言模型（LLMs）进行微调，以使其更好地与用户偏好相匹配。与 LLMs 相比，文本到图像扩散模型中人类偏好学习的探索较少；目前最佳方法是使用经过精心筛选的高质量图像和标题对预训练模型进行微调，以提高视觉吸引力和文本对齐性。我们提出 Diffusion-DPO 方法，通过在人类比较数据上进行直接优化，使扩散模型与人类偏好相匹配。Diffusion-DPO 从最近开发的直接偏好优化（DPO）中进行适应，DPO 是对最佳满足分类目标下人类偏好的策略直接进行优化的更简单的方法。我们重新制定 DPO 以考虑扩散模型的似然概念，利用证据下界导出可微分的目标函数。利用 Pick-a-Pic 数据集中的 851K 个众包成对偏好，我们使用 Diffusion-DPO 对最先进的稳定扩散 XL（SDXL）-1.0 模型的基础模型进行微调。我们微调后的基础模型在人工评估中显著优于基础 SDXL-1.0 模型和额外的改进模型，从而提高了视觉吸引力和提示对齐。我们还开发了一个使用 AI 反馈并具有与基于人类偏好训练相当性能的变体，为扩展扩散模型对齐方法打开了大门。

Nov, 2023

反馈高效在线微调扩散模型

提出了一种新颖的强化学习算法，可有效地在可行样本的流形上进行探索，并通过对图像、生物序列和分子三个领域的理论分析和实证验证提供了一种后悔保证.

Feb, 2024

课程定向优化策略：扩散和一致性模型

该论文介绍了一种基于课程学习的新颖增强版 Direct Preference Optimization（DPO）方法，用于文本到图像生成，在三个基准测试中胜过了其他方法，包括文本对齐、美学和人类首选项等方面。

May, 2024

细调文本转语音扩散模型的强化学习

利用强化学习和人类反馈进行扩散模型的文本转语音合成来生成自然且高质量的语音音频。

May, 2024

直接优化偏好：你的语言模型其实是一个暗地里的奖励模型

本文提出了一种称为 DPO（Direct Preference Optimization）的算法来解决无监督语言模型中的可控性问题，并在实验中表明，相较于传统的 RLHF 方法，DPO 不仅表现更好，而且更加稳定和简单。

May, 2023

文本到图像生成的自博弈微调扩散模型

通过自我对抗调优技术 (SPIN-Diffusion) 实现了扩散模型的细化调整，超越了常规的监督式细调和强化学习方法，在生成人工智能领域取得了显著的性能和一致性改进。

Feb, 2024