从扩散反馈中强化学习：图像搜索的 Q*

Nov, 2023

从扩散反馈中强化学习：图像搜索的 Q*

Reinforcement Learning from Diffusion Feedback: Q* for Image Search

Aboli Marathe

TL;DR大型视觉 - 语言模型通过非微调或数据增强实现个性化能力增强。本文提出了两种使用模型无关学习进行图像生成的模型，通过将语义先验与生成能力进行对齐。其中一种方法是 RLDF（Reinforcement Learning from Diffusion Feedback），通过保持先前的奖励函数进行视觉模仿。另一种方法是噪声扩散梯度优化方法。这些方法的核心是我们提出的连续语义引导的特殊 CFG 编码。RLDF 仅使用单张输入图像且无文本输入，在不同领域包括零售、体育和农业生成了具有类一致性和强大视觉多样性的高质量图像。项目网站可在此 https URL 找到。

Abstract

large vision-language models are steadily gaining personalization capabilities at the cost of fine-tuning or data augmentation. We present two models for image generation using model-agnostic learning that align

large vision-language models personalization capabilities model-agnostic learning visual imitation semantic guidance

发现论文，激发创造

基于迭代提示重标记的扩散模型与 RLDF

我们提出了迭代提示重新标记 (IP-RLDF) 算法，通过迭代图像采样和提示重新标记将图像与文本对齐。IP-RLDF 在三种不同模型上进行了彻底实验，包括 SDv2、GLIGEN 和 SDXL，测试了它们根据指令生成图像的能力，并在具有挑战性的空间关系 VISOR 基准测试中实现了高达 15.22% 的改进，相比之前的 RL 方法表现出更强的性能。

Dec, 2023

大规模强化学习用于扩散模型

本文介绍了一种有效可扩展的算法，利用强化学习（RL）在各种奖励函数上改进扩散模型，包括人类偏好、组合性和公平性，从而有效地解决了扩散模型与人类偏好不一致的问题，同时提高了生成样本的组合性和多样性。

Jan, 2024

使用强化学习训练扩散模型

本文介绍了如何使用增强学习方法直接优化扩散模型以实现人类感知的图像质量和药物效果等下游目标，并提出了一种名为去噪扩散策略优化（DDPO）的类策略梯度算法，并进行了实证及效果验证。

May, 2023

细调文本转语音扩散模型的强化学习

利用强化学习和人类反馈进行扩散模型的文本转语音合成来生成自然且高质量的语音音频。

May, 2024

基于扩散模型的像素级强化学习：从丰富反馈中进行强化学习

扩展了基于人类反馈训练的静态扩散模型生成算法，提出了基于像素的策略优化算法 (PXPO)，通过针对每个像素提供更细致的奖励给模型。

Apr, 2024

反馈高效在线微调扩散模型

提出了一种新颖的强化学习算法，可有效地在可行样本的流形上进行探索，并通过对图像、生物序列和分子三个领域的理论分析和实证验证提供了一种后悔保证.

Feb, 2024

一致性模型的强化学习：更快的奖励引导文本到图像生成

通过强化学习调优一致性模型，我们提出了一种能够针对任务特定奖励实现快速训练和推理的框架，该框架名为迭代学习一致性模型（RLCM）。与使用提示进行训练的强化学习调优扩散模型相比，RLCM 训练速度更快，根据奖励目标改进了生成的质量，并通过最多两个推理步骤生成高质量图像的推理过程加速。

Mar, 2024

通过奖励引导探索实现可控扩散模型

本文提出了一种名为 RGDM 的模型，通过强化学习（RL）引导扩散模型的训练阶段，从而实现对样本生成的控制。在 3D 形状和分子生成任务上的实验表明，该模型相较于现有的条件扩散模型具有显著的改进。

Apr, 2023

RL-VLM-F: 视觉语言基础模型反馈的强化学习

提出了一种自动生成奖励函数的方法 RL-VLM-F，通过利用视觉语言基础模型的反馈，从任务目标的文本描述和代理人的视觉观察中自动生成奖励函数，避免了人力成本和试错过程，在各个领域中成功产生了有效的奖励和策略，并优于使用大规模预训练模型的先前方法。

Feb, 2024

InstructRL4Pix：通过强化学习训练图像编辑的扩散

通过使用增强学习引导图像编辑方法（InstructRL4Pix）来生成由目标对象的注意力地图引导的图像扩散模型，该方法通过计算注意力地图之间的距离作为奖励函数来最大化奖励模型的输出，并使用邻近策略优化（PPO）对扩散模型进行微调，以实现基于自然人命令的准确图像编辑。实验证实 InstructRL4Pix 突破了传统数据集的限制，利用无监督学习来优化编辑目标，并实现了精确的图像编辑。

Jun, 2024