大规模强化学习用于扩散模型
本文介绍了如何使用增强学习方法直接优化扩散模型以实现人类感知的图像质量和药物效果等下游目标,并提出了一种名为去噪扩散策略优化(DDPO)的类策略梯度算法,并进行了实证及效果验证。
May, 2023
通过自我对抗调优技术 (SPIN-Diffusion) 实现了扩散模型的细化调整,超越了常规的监督式细调和强化学习方法,在生成人工智能领域取得了显著的性能和一致性改进。
Feb, 2024
本研究探索了一种潜在的方法,通过使用 Flickr8k 数据集,将监督学习和强化学习与人类反馈相结合,以提高深度神经网络模型生成符合人类偏好的标题的性能,并引入了一种新的损失函数,能够基于人类反馈优化模型。
Mar, 2024
该研究提出了使用在线强化学习对文本到图像模型进行微调的方法,名为 DPOK,该方法将策略优化和 KL 正则化集成在一起,并通过增强学习来更新预训练的文本到图像扩散模型,实验证明该方法在图像文本对齐和图像质量方面优于监督式微调。
May, 2023
该论文提出了一种名为 DSD 的创新方法,它利用预训练的 text-to-image 扩散模型进行少样本判别性学习,并使用交叉注意力分数捕捉视觉和文本信息之间的相互影响,并通过基于注意力的提示学习对模型进行微调,实现图文匹配,并在几个基准数据集上展示利用预训练扩散模型在少样本图文匹配上具有非凡的结果。
May, 2023
通过强化学习调优一致性模型,我们提出了一种能够针对任务特定奖励实现快速训练和推理的框架,该框架名为迭代学习一致性模型(RLCM)。与使用提示进行训练的强化学习调优扩散模型相比,RLCM 训练速度更快,根据奖励目标改进了生成的质量,并通过最多两个推理步骤生成高质量图像的推理过程加速。
Mar, 2024
大型视觉 - 语言模型通过非微调或数据增强实现个性化能力增强。本文提出了两种使用模型无关学习进行图像生成的模型,通过将语义先验与生成能力进行对齐。其中一种方法是 RLDF(Reinforcement Learning from Diffusion Feedback),通过保持先前的奖励函数进行视觉模仿。另一种方法是噪声扩散梯度优化方法。这些方法的核心是我们提出的连续语义引导的特殊 CFG 编码。RLDF 仅使用单张输入图像且无文本输入,在不同领域包括零售、体育和农业生成了具有类一致性和强大视觉多样性的高质量图像。项目网站可在此 https URL 找到。
Nov, 2023