Nov, 2023

从扩散反馈中强化学习:图像搜索的 Q*

TL;DR大型视觉 - 语言模型通过非微调或数据增强实现个性化能力增强。本文提出了两种使用模型无关学习进行图像生成的模型,通过将语义先验与生成能力进行对齐。其中一种方法是 RLDF(Reinforcement Learning from Diffusion Feedback),通过保持先前的奖励函数进行视觉模仿。另一种方法是噪声扩散梯度优化方法。这些方法的核心是我们提出的连续语义引导的特殊 CFG 编码。RLDF 仅使用单张输入图像且无文本输入,在不同领域包括零售、体育和农业生成了具有类一致性和强大视觉多样性的高质量图像。项目网站可在此 https URL 找到。