Sep, 2023
直接在可微奖励上微调扩散模型
Directly Fine-Tuning Diffusion Models on Differentiable Rewards
Kevin Clark, Paul Vicol, Kevin Swersky, David J Fleet
TL;DR通过直接奖励微调方法(DRaFT)对扩散模型进行微调,以最大化可微分奖励函数,实现了强化学习方法无法超越的强大性能,通过在采样过程中反向传播奖励梯度,并且提出了更高效的 DRaFT 变体:DRaFT-K 和 DRaFT-LV。同时,通过与之前的工作进行对比,为基于梯度微调算法的设计空间提供了一个统一的视角。