本文介绍了如何使用增强学习方法直接优化扩散模型以实现人类感知的图像质量和药物效果等下游目标,并提出了一种名为去噪扩散策略优化(DDPO)的类策略梯度算法,并进行了实证及效果验证。
May, 2023
使用直接偏好优化方法直接优化扩散模型,在不需要训练奖励模型的情况下,通过相对目标的比例作为人类偏好的代理实现了可比较的结果,减少了图像畸变率并生成了更安全的图像。
Nov, 2023
该研究提出了使用在线强化学习对文本到图像模型进行微调的方法,名为 DPOK,该方法将策略优化和 KL 正则化集成在一起,并通过增强学习来更新预训练的文本到图像扩散模型,实验证明该方法在图像文本对齐和图像质量方面优于监督式微调。
利用人类比较数据和强化学习通过 Reinforcement Learning from Human Feedback (RLHF) 方法对大规模语言模型(LLMs)进行微调,以使其更好地与用户偏好相匹配。与 LLMs 相比,文本到图像扩散模型中人类偏好学习的探索较少;目前最佳方法是使用经过精心筛选的高质量图像和标题对预训练模型进行微调,以提高视觉吸引力和文本对齐性。我们提出 Diffusion-DPO 方法,通过在人类比较数据上进行直接优化,使扩散模型与人类偏好相匹配。Diffusion-DPO 从最近开发的直接偏好优化(DPO)中进行适应,DPO 是对最佳满足分类目标下人类偏好的策略直接进行优化的更简单的方法。我们重新制定 DPO 以考虑扩散模型的似然概念,利用证据下界导出可微分的目标函数。利用 Pick-a-Pic 数据集中的 851K 个众包成对偏好,我们使用 Diffusion-DPO 对最先进的稳定扩散 XL(SDXL)-1.0 模型的基础模型进行微调。我们微调后的基础模型在人工评估中显著优于基础 SDXL-1.0 模型和额外的改进模型,从而提高了视觉吸引力和提示对齐。我们还开发了一个使用 AI 反馈并具有与基于人类偏好训练相当性能的变体,为扩展扩散模型对齐方法打开了大门。
通过使用增强学习引导图像编辑方法(InstructRL4Pix)来生成由目标对象的注意力地图引导的图像扩散模型,该方法通过计算注意力地图之间的距离作为奖励函数来最大化奖励模型的输出,并使用邻近策略优化(PPO)对扩散模型进行微调,以实现基于自然人命令的准确图像编辑。实验证实 InstructRL4Pix 突破了传统数据集的限制,利用无监督学习来优化编辑目标,并实现了精确的图像编辑。
Jun, 2024
本文利用扩散概率模型提出了一种新的随机策略表示方法,并证明了它对于多模态分布的优越性,进而应用到无模型在线强化学习中,提出 DIPO 算法,在标准连续控制 Mujoco 基准中取得了显著优势。
本文介绍了一种有效可扩展的算法,利用强化学习(RL)在各种奖励函数上改进扩散模型,包括人类偏好、组合性和公平性,从而有效地解决了扩散模型与人类偏好不一致的问题,同时提高了生成样本的组合性和多样性。
Jan, 2024
大型视觉 - 语言模型通过非微调或数据增强实现个性化能力增强。本文提出了两种使用模型无关学习进行图像生成的模型,通过将语义先验与生成能力进行对齐。其中一种方法是 RLDF(Reinforcement Learning from Diffusion Feedback),通过保持先前的奖励函数进行视觉模仿。另一种方法是噪声扩散梯度优化方法。这些方法的核心是我们提出的连续语义引导的特殊 CFG 编码。RLDF 仅使用单张输入图像且无文本输入,在不同领域包括零售、体育和农业生成了具有类一致性和强大视觉多样性的高质量图像。项目网站可在此 https URL 找到。
本文提出了一种数据有效、基于模型的强化学习算法,通过使用像素信息直接学习闭环控制策略,实现了从像素到扭矩的端到端学习。该方法具有快速学习、高维状态空间可扩展、轻量级等优点,并且是解决在连续状态和动作下进行数据有效强化学习问题的重要步骤。
Oct, 2015
通过在扩散模型的内嵌空间中优化感知目标,我们提出了一种方法,使用直接偏好优化 (DPO)、对比偏好优化 (CPO) 和监督微调 (SFT) 来显著提高扩散模型的效率和质量,同时降低了计算成本。