连续时间扩散模型的熵正则控制微调

Feb, 2024

连续时间扩散模型的熵正则控制微调

Fine-Tuning of Continuous-Time Diffusion Models as Entropy-Regularized Control

Masatoshi Uehara, Yulai Zhao, Kevin Black, Ehsan Hajiramezanali, Gabriele Scalia...

TL;DR通过以预训练扩散模型为基础，直接优化熵增强奖励函数的神经 SDE，我们提出了一种解决奖励陷入崩溃问题的框架，理论和实证证据表明该框架能够高效生成具有高真实奖励的多样样本，并减少对不完美奖励模型的过度优化。

Abstract

diffusion models excel at capturing complex data distributions, such as those of natural images and proteins. While diffusion models are trained to represent the distribution in the training dataset, we often are

diffusion models finetuning reward collapse entropy-regularized control neural sdes

发现论文，激发创造

通过随机控制进行扩散模型的微调：熵正则化与更多

本研究致力于对连续时间漫射模型中的熵正则调优问题进行深入研究，并展示如何将分析扩展到涉及一般 $f$- 散度正则化器的调优问题。

Mar, 2024

反馈高效在线微调扩散模型

提出了一种新颖的强化学习算法，可有效地在可行样本的流形上进行探索，并通过对图像、生物序列和分子三个领域的理论分析和实证验证提供了一种后悔保证.

Feb, 2024

通过奖励引导探索实现可控扩散模型

本文提出了一种名为 RGDM 的模型，通过强化学习（RL）引导扩散模型的训练阶段，从而实现对样本生成的控制。在 3D 形状和分子生成任务上的实验表明，该模型相较于现有的条件扩散模型具有显著的改进。

Apr, 2023

使用强化学习为扩散模型添加条件控制

基于强化学习的 $ extbf {CTRL}$（$ extbf {C}$onditioning pre-$ extbf {T}$rained diffusion models with $ extbf {R}$einforcement $ extbf {L}$earning）方法通过离线数据集，利用强化学习方法在预训练模型上添加额外控制，从而能在推理过程中对条件分布进行采样。与现有方法相比，我们的基于强化学习的方法提供了更高的样本效率，并且利用了输入和额外控制之间的条件独立性，从而极大地简化了离线数据集的构建。此外，与分类器指导方法不同，我们不需要从中间状态到额外控制训练分类器。

Jun, 2024

利用有损扩散模型增强图像布局控制

扩散模型为一种强大的生成模型，能够从纯噪声中生成高质量的图像。条件扩散模型通过简单的文本提示能够指定所需图像的内容，然而，仅仅基于文本提示无法对最终图像的构成和布局进行细致的控制，而这取决于初始噪声分布。本文探讨了两种改进方法，并演示了当这两种方法结合使用时可以获得更好的性能。

May, 2024

扩散模型的迁移学习

该论文介绍了一种名为 Transfer Guided Diffusion Process (TGDP) 的新方法，用于在目标领域中将预训练的扩散模型与域分类器的额外指导相结合，以实现优化后的扩散模型，进一步将 TGDP 扩展为用于建模数据及其对应标签的条件版本，并引入两个附加的正则化项以提高模型性能，通过高斯混合模拟和真实心电图数据集验证了 TGDP 方法的有效性。

May, 2024

增强扩散模型的可控性

该研究使用基于 GAN latent space 的技术和生成式扩散模型，通过条件输入的两个 latent codes（空间内容掩码和扁平化样式嵌入）对其生成进行控制，从而实现图像的有效操控和转化。

Feb, 2023

数据驱动的黑箱优化扩散模型

基于扩散模型的条件采样方法，在黑盒优化中生成接近最佳解且保留设计的潜在结构，通过建立理论模型和进行实验验证，证明了奖励导向扩散模型在黑盒优化中的效率和准确性。

Mar, 2024

物理相关扩散模型

通过在模型训练过程中加入约束条件使其生成的样本更符合所施加的约束，从而提高生成样本与约束的一致性，且相较于现有方法有更好的性能且不影响推断速度；该方法还可以自然地防止过拟合。

Mar, 2024

使用强化学习训练扩散模型

本文介绍了如何使用增强学习方法直接优化扩散模型以实现人类感知的图像质量和药物效果等下游目标，并提出了一种名为去噪扩散策略优化（DDPO）的类策略梯度算法，并进行了实证及效果验证。

May, 2023