使用强化学习为扩散模型添加条件控制

Jun, 2024

使用强化学习为扩散模型添加条件控制

Adding Conditional Control to Diffusion Models with Reinforcement Learning

Yulai Zhao, Masatoshi Uehara, Gabriele Scalia, Tommaso Biancalani, Sergey Levine...

TL;DR基于强化学习的 $ extbf {CTRL}$（$ extbf {C}$onditioning pre-$ extbf {T}$rained diffusion models with $ extbf {R}$einforcement $ extbf {L}$earning）方法通过离线数据集，利用强化学习方法在预训练模型上添加额外控制，从而能在推理过程中对条件分布进行采样。与现有方法相比，我们的基于强化学习的方法提供了更高的样本效率，并且利用了输入和额外控制之间的条件独立性，从而极大地简化了离线数据集的构建。此外，与分类器指导方法不同，我们不需要从中间状态到额外控制训练分类器。

Abstract

diffusion models are powerful generative models that allow for precise control over the characteristics of the generated samples. While these diffusion models trained on large datasets have achieved success, ther

diffusion models reinforcement learning pre-trained models conditional distribution offline dataset

发现论文，激发创造

为文本 - 图像扩散模型添加条件控制

提出一种神经网络框架 ControlNet 来控制大型预训练扩散模型以支持额外的输入条件，该模型能够以端到端的方式学习任务特定条件，并且学习具有鲁棒性，即使训练数据集很小（<50k）；此外，训练 ControlNet 的速度与调整扩散模型的速度相同，模型可以在个人设备上训练。也可以在强大的计算集群上进行训练，适用于大量（数百万至数十亿）的数据；控制网络可以与大型扩散模型一起使用，以启用诸如边缘地图、分割地图、关键点等条件输入，进一步丰富了控制大型扩散模型的方法，促进了相关应用的发展。

Feb, 2023

离线强化学习的时态条件引导指导下的指导扩散器

本文提出了一种基于时间条件的扩散模型 (Temporally-Composable Diffuser)，该模型可以从交互序列中提取时间信息，并将其用于指导生成，以在离线强化学习任务中实现更好的性能。

Jun, 2023

基于模型的强化学习控制反应扩散问题

本文探讨了利用自动控制策略解决热传导和疾病传输的初始边界值问题，通过使用一种基于随机策略梯度方法的改进强化学习算法，并引入了两个新的奖励函数来驱动流体的传输，利用反应扩散模型和修改的代理之间的相互作用，成功实现了对这些应用的某些控制，尽管需要假设模型简化。

Feb, 2024

通过奖励引导探索实现可控扩散模型

本文提出了一种名为 RGDM 的模型，通过强化学习（RL）引导扩散模型的训练阶段，从而实现对样本生成的控制。在 3D 形状和分子生成任务上的实验表明，该模型相较于现有的条件扩散模型具有显著的改进。

Apr, 2023

通过轨迹拼接提炼离线强化学习的条件扩散模型

基于数据增强的知识蒸馏方法提出，通过条件扩散模型生成高回报轨迹，并通过新的奖励生成器运用新颖的拼接算法将其与原始轨迹混合。将得到的数据集应用于行为克隆，学习到的规模较小的浅层策略在几个 D4RL 基准测试中表现优于或接近深度生成规划器。

Feb, 2024

连续时间扩散模型的熵正则控制微调

通过以预训练扩散模型为基础，直接优化熵增强奖励函数的神经 SDE，我们提出了一种解决奖励陷入崩溃问题的框架，理论和实证证据表明该框架能够高效生成具有高真实奖励的多样样本，并减少对不完美奖励模型的过度优化。

Feb, 2024

面向参数变化系统的模型自适应强化学习控制中的样本高效迁移

本文利用模型控制的思想解决了强化学习算法的样本效率问题，并通过四个基准实例验证了其性能。

May, 2023

反馈高效在线微调扩散模型

提出了一种新颖的强化学习算法，可有效地在可行样本的流形上进行探索，并通过对图像、生物序列和分子三个领域的理论分析和实证验证提供了一种后悔保证.

Feb, 2024

离线强化学习的优化扩散策略

离线强化学习研究了优化策略的方法，使用扩散模型进行模拟，通过首选动作优化提高性能，在稀疏奖励任务中表现出竞争力或卓越性能，同时证明了抗噪声偏好优化的有效性。

May, 2024

决策和控制的深度生成模型

本论文旨在研究深度模型强化学习方法的实证不足，并提出解决方案，同时探讨现代生成建模工具箱中推理技术（包括波束搜索、分类器导向抽样和图像修复等）在强化学习问题中的有效规划策略。

Jun, 2023