May, 2024

文本到图像扩散模型的深度奖励监督

TL;DR通过直接监督文本到图像扩散模型的最终输出图像并通过迭代抽样过程向输入噪声反向传播的算法,Deep Reward Tuning (DRTune),能够有效地优化与低级奖励相关的模型。通过在各种奖励模型上进行了全面的评估,DRTune 的性能始终优于其他算法,尤其是在浅层监督方法失效的低级控制信号方面。此外,通过 DRTune 对稳定扩散 XL 1.0 (SDXL 1.0) 模型进行了微调,以优化 Human Preference Score v2.1,得到了 Favorable Diffusion XL 1.0 (FDXL 1.0) 模型,FDXL 1.0 在图像质量上显著优于 SDXL 1.0,并与 Midjourney v5.2 达到了可比较的质量水平。