Mar, 2024

一致性模型的强化学习:更快的奖励引导文本到图像生成

TL;DR通过强化学习调优一致性模型,我们提出了一种能够针对任务特定奖励实现快速训练和推理的框架,该框架名为迭代学习一致性模型(RLCM)。与使用提示进行训练的强化学习调优扩散模型相比,RLCM训练速度更快,根据奖励目标改进了生成的质量,并通过最多两个推理步骤生成高质量图像的推理过程加速。