直接在可微奖励上微调扩散模型

Sep, 2023

Directly Fine-Tuning Diffusion Models on Differentiable Rewards

Kevin Clark, Paul Vicol, Kevin Swersky, David J Fleet

TL;DR通过直接奖励微调方法（DRaFT）对扩散模型进行微调，以最大化可微分奖励函数，实现了强化学习方法无法超越的强大性能，通过在采样过程中反向传播奖励梯度，并且提出了更高效的 DRaFT 变体：DRaFT-K 和 DRaFT-LV。同时，通过与之前的工作进行对比，为基于梯度微调算法的设计空间提供了一个统一的视角。

Abstract

We present direct reward fine-tuning (DRaFT), a simple and effective method for fine-tuning diffusion models to maximize differentiable reward fu

direct reward fine-tuning diffusion models reward functions backpropagation gradient-based fine-tuning algorithms

发现论文，激发创造

文本到图像扩散模型的深度奖励监督

通过直接监督文本到图像扩散模型的最终输出图像并通过迭代抽样过程向输入噪声反向传播的算法，Deep Reward Tuning (DRTune)，能够有效地优化与低级奖励相关的模型。通过在各种奖励模型上进行了全面的评估，DRTune 的性能始终优于其他算法，尤其是在浅层监督方法失效的低级控制信号方面。此外，通过 DRTune 对稳定扩散 XL 1.0 (SDXL 1.0) 模型进行了微调，以优化 Human Preference Score v2.1，得到了 Favorable Diffusion XL 1.0 (FDXL 1.0) 模型，FDXL 1.0 在图像质量上显著优于 SDXL 1.0，并与 Midjourney v5.2 达到了可比较的质量水平。

May, 2024

反馈高效在线微调扩散模型

提出了一种新颖的强化学习算法，可有效地在可行样本的流形上进行探索，并通过对图像、生物序列和分子三个领域的理论分析和实证验证提供了一种后悔保证.

Feb, 2024

基于奖励的条件扩散：可证明的分布估计与奖励优化

探索基于条件扩散模型的奖励定向生成方法和理论。此生成器可有效地学习和采样奖励条件的数据分布，并且生成新的群体移向用户指定的目标奖励值，通过实证研究验证这一理论并探究外推强度与样本质量之间的关系。

Jul, 2023

RAFT: 用于生成式基础模型对齐的奖励排序微调方法

本文提出了一种新的框架 RAFT，它利用奖励模型和足够数量的样本将生成模型对齐，选择高质量的样本并去除那些表现不良的样本。该算法在大型语言模型和扩散模型的情况下表现良好。

Apr, 2023

从扩散模型中提取奖励函数

本文提出使用扩散模型和奖励函数相结合的方式，在序列化决策任务中实现高效决策，使用神经网络参数化奖励函数，能够提高机器人的运动性能，并且可以推广到图像生成领域。

Jun, 2023

利用人类反馈对扩散模型进行微调，无需任何奖励模型

使用直接偏好优化方法直接优化扩散模型，在不需要训练奖励模型的情况下，通过相对目标的比例作为人类偏好的代理实现了可比较的结果，减少了图像畸变率并生成了更安全的图像。

Nov, 2023

DPOK: 用强化学习对文本到图像扩散模型进行微调

该研究提出了使用在线强化学习对文本到图像模型进行微调的方法，名为 DPOK，该方法将策略优化和 KL 正则化集成在一起，并通过增强学习来更新预训练的文本到图像扩散模型，实验证明该方法在图像文本对齐和图像质量方面优于监督式微调。

May, 2023

通过保守微调扩散模型，建立基于模型的优化和生成建模的桥梁

通过优化奖励模型的方式，我们采用了一种混合方法来调优顶尖扩散模型，结合了生成模型和基于模型的优化方法的优势，以求解 AI 驱动的设计问题。在离线数据集的常见科学领域中，我们关注的是一个奖励模型未知的离线环境，通过学习静态离线数据集，解决过度优化问题，同时利用奖励模型的外推能力最大化了离线数据中的设计性能。

May, 2024

无调谐扩散模型的直接噪声优化对齐

本论文主要关注扩散模型与连续奖励函数的对齐问题，提出了一种名为直接噪声优化（DNO）的新型对齐方法，通过在线生成过程中优化注入的噪声来调整扩散模型所学习的分布，以使生成的样本最大化目标奖励函数。实验结果表明，DNO 方法在人类反馈数据上训练的多个受欢迎奖励函数中取得了最先进的奖励分数和高质量的图像生成，且在合理的时间预算内完成。

May, 2024

通过奖励引导探索实现可控扩散模型

本文提出了一种名为 RGDM 的模型，通过强化学习（RL）引导扩散模型的训练阶段，从而实现对样本生成的控制。在 3D 形状和分子生成任务上的实验表明，该模型相较于现有的条件扩散模型具有显著的改进。

Apr, 2023