Sep, 2023

直接在可微奖励上微调扩散模型

TL;DR通过直接奖励微调方法(DRaFT)对扩散模型进行微调,以最大化可微分奖励函数,实现了强化学习方法无法超越的强大性能,通过在采样过程中反向传播奖励梯度,并且提出了更高效的 DRaFT 变体:DRaFT-K 和 DRaFT-LV。同时,通过与之前的工作进行对比,为基于梯度微调算法的设计空间提供了一个统一的视角。