使用强化学习训练扩散模型
扩展了基于人类反馈训练的静态扩散模型生成算法,提出了基于像素的策略优化算法 (PXPO),通过针对每个像素提供更细致的奖励给模型。
Apr, 2024
本文介绍了一种有效可扩展的算法,利用强化学习(RL)在各种奖励函数上改进扩散模型,包括人类偏好、组合性和公平性,从而有效地解决了扩散模型与人类偏好不一致的问题,同时提高了生成样本的组合性和多样性。
Jan, 2024
使用直接偏好优化方法直接优化扩散模型,在不需要训练奖励模型的情况下,通过相对目标的比例作为人类偏好的代理实现了可比较的结果,减少了图像畸变率并生成了更安全的图像。
Nov, 2023
本文利用扩散概率模型提出了一种新的随机策略表示方法,并证明了它对于多模态分布的优越性,进而应用到无模型在线强化学习中,提出 DIPO 算法,在标准连续控制 Mujoco 基准中取得了显著优势。
May, 2023
扩散模型已成为一个突出的生成模型类别,超越了以往的方法,提高了样本质量和训练稳定性。本文概述了这一新兴领域的进展,并希望激发新的研究方向。我们首先研究了当前强化学习算法面临的几个挑战,然后根据扩散模型在强化学习中的角色提出了现有方法的分类,并探讨了如何解决当前的挑战。我们进一步概述了扩散模型在各种与强化学习相关的任务中的成功应用,同时讨论了当前方法的局限性。最后,我们总结了调研结果,并提出了关于增强模型性能和将扩散模型应用于更广泛任务的研究方向。我们正在积极维护一个在 GitHub 上的代码仓库,用于与扩散模型在强化学习中应用相关的论文和其他资源。
Nov, 2023
本文通过扩展动力学模型,利用扩散概率模型去掉了传统轨迹优化方法的瓶颈,将采样和计划步骤近乎完全融合,通过分类器和图像插值获得了在线规划策略,并在长期决策和测试时间灵活性强的控制环境中成功应用了该框架。
May, 2022
利用人类比较数据和强化学习通过 Reinforcement Learning from Human Feedback (RLHF) 方法对大规模语言模型(LLMs)进行微调,以使其更好地与用户偏好相匹配。与 LLMs 相比,文本到图像扩散模型中人类偏好学习的探索较少;目前最佳方法是使用经过精心筛选的高质量图像和标题对预训练模型进行微调,以提高视觉吸引力和文本对齐性。我们提出 Diffusion-DPO 方法,通过在人类比较数据上进行直接优化,使扩散模型与人类偏好相匹配。Diffusion-DPO 从最近开发的直接偏好优化(DPO)中进行适应,DPO 是对最佳满足分类目标下人类偏好的策略直接进行优化的更简单的方法。我们重新制定 DPO 以考虑扩散模型的似然概念,利用证据下界导出可微分的目标函数。利用 Pick-a-Pic 数据集中的 851K 个众包成对偏好,我们使用 Diffusion-DPO 对最先进的稳定扩散 XL(SDXL)-1.0 模型的基础模型进行微调。我们微调后的基础模型在人工评估中显著优于基础 SDXL-1.0 模型和额外的改进模型,从而提高了视觉吸引力和提示对齐。我们还开发了一个使用 AI 反馈并具有与基于人类偏好训练相当性能的变体,为扩展扩散模型对齐方法打开了大门。
Nov, 2023
通过在模型训练过程中加入约束条件使其生成的样本更符合所施加的约束,从而提高生成样本与约束的一致性,且相较于现有方法有更好的性能且不影响推断速度;该方法还可以自然地防止过拟合。
Mar, 2024
该研究提出了使用在线强化学习对文本到图像模型进行微调的方法,名为 DPOK,该方法将策略优化和 KL 正则化集成在一起,并通过增强学习来更新预训练的文本到图像扩散模型,实验证明该方法在图像文本对齐和图像质量方面优于监督式微调。
May, 2023