大规模强化学习用于扩散模型

Jan, 2024

Large-scale Reinforcement Learning for Diffusion Models

Yinan Zhang, Eric Tzeng, Yilun Du, Dmitry Kislyuk

TL;DR本文介绍了一种有效可扩展的算法，利用强化学习（RL）在各种奖励函数上改进扩散模型，包括人类偏好、组合性和公平性，从而有效地解决了扩散模型与人类偏好不一致的问题，同时提高了生成样本的组合性和多样性。

Abstract

text-to-image diffusion models are a class of deep generative models that have demonstrated an impressive capacity for high-quality image generation. However, these models are susceptible to →

text-to-image diffusion models deep generative models implicit biases reinforcement learning stable diffusion models

发现论文，激发创造

使用强化学习训练扩散模型

本文介绍了如何使用增强学习方法直接优化扩散模型以实现人类感知的图像质量和药物效果等下游目标，并提出了一种名为去噪扩散策略优化（DDPO）的类策略梯度算法，并进行了实证及效果验证。

May, 2023

反馈高效在线微调扩散模型

提出了一种新颖的强化学习算法，可有效地在可行样本的流形上进行探索，并通过对图像、生物序列和分子三个领域的理论分析和实证验证提供了一种后悔保证.

Feb, 2024

文本到图像生成的自博弈微调扩散模型

通过自我对抗调优技术 (SPIN-Diffusion) 实现了扩散模型的细化调整，超越了常规的监督式细调和强化学习方法，在生成人工智能领域取得了显著的性能和一致性改进。

Feb, 2024

使用文本编码强化学习增强扩散模型

通过强化学习对文本编码器进行微调，可以提高文本与图像之间的对齐效果，从而提升图像质量。

Nov, 2023

公平扩散：教导文本到图像生成模型公平性

通过一项称为公平扩散的新策略，无需数据筛选和额外培训，即可在没有任何偏见的情况下指导生成模型的公平性和防止其加重偏见。

Feb, 2023

利用强化学习与人类反馈增强图像字幕生成

本研究探索了一种潜在的方法，通过使用 Flickr8k 数据集，将监督学习和强化学习与人类反馈相结合，以提高深度神经网络模型生成符合人类偏好的标题的性能，并引入了一种新的损失函数，能够基于人类反馈优化模型。

Mar, 2024

DPOK: 用强化学习对文本到图像扩散模型进行微调

该研究提出了使用在线强化学习对文本到图像模型进行微调的方法，名为 DPOK，该方法将策略优化和 KL 正则化集成在一起，并通过增强学习来更新预训练的文本到图像扩散模型，实验证明该方法在图像文本对齐和图像质量方面优于监督式微调。

May, 2023

区分性扩散模型作为几个少样本视觉和语言学习器

该论文提出了一种名为 DSD 的创新方法，它利用预训练的 text-to-image 扩散模型进行少样本判别性学习，并使用交叉注意力分数捕捉视觉和文本信息之间的相互影响，并通过基于注意力的提示学习对模型进行微调，实现图文匹配，并在几个基准数据集上展示利用预训练扩散模型在少样本图文匹配上具有非凡的结果。

May, 2023

一致性模型的强化学习：更快的奖励引导文本到图像生成

通过强化学习调优一致性模型，我们提出了一种能够针对任务特定奖励实现快速训练和推理的框架，该框架名为迭代学习一致性模型（RLCM）。与使用提示进行训练的强化学习调优扩散模型相比，RLCM 训练速度更快，根据奖励目标改进了生成的质量，并通过最多两个推理步骤生成高质量图像的推理过程加速。

Mar, 2024

从扩散反馈中强化学习：图像搜索的 Q*

大型视觉 - 语言模型通过非微调或数据增强实现个性化能力增强。本文提出了两种使用模型无关学习进行图像生成的模型，通过将语义先验与生成能力进行对齐。其中一种方法是 RLDF（Reinforcement Learning from Diffusion Feedback），通过保持先前的奖励函数进行视觉模仿。另一种方法是噪声扩散梯度优化方法。这些方法的核心是我们提出的连续语义引导的特殊 CFG 编码。RLDF 仅使用单张输入图像且无文本输入，在不同领域包括零售、体育和农业生成了具有类一致性和强大视觉多样性的高质量图像。项目网站可在此 https URL 找到。

Nov, 2023