文本到图像扩散模型的深度奖励监督

May, 2024

文本到图像扩散模型的深度奖励监督

Deep Reward Supervisions for Tuning Text-to-Image Diffusion Models

Xiaoshi Wu, Yiming Hao, Manyuan Zhang, Keqiang Sun, Zhaoyang Huang...

TL;DR通过直接监督文本到图像扩散模型的最终输出图像并通过迭代抽样过程向输入噪声反向传播的算法，Deep Reward Tuning (DRTune)，能够有效地优化与低级奖励相关的模型。通过在各种奖励模型上进行了全面的评估，DRTune 的性能始终优于其他算法，尤其是在浅层监督方法失效的低级控制信号方面。此外，通过 DRTune 对稳定扩散 XL 1.0 (SDXL 1.0) 模型进行了微调，以优化 Human Preference Score v2.1，得到了 Favorable Diffusion XL 1.0 (FDXL 1.0) 模型，FDXL 1.0 在图像质量上显著优于 SDXL 1.0，并与 Midjourney v5.2 达到了可比较的质量水平。

Abstract

Optimizing a text-to-image diffusion model with a given reward function is an important but underexplored research area. In this study, we propose Deep Reward Tuning (DRTune), an algorithm that directly supervises the final output image of a →

text-to-image diffusion model deep reward tuning low-level rewards deep supervision favorable diffusion xl 1.0

发现论文，激发创造

直接在可微奖励上微调扩散模型

通过直接奖励微调方法（DRaFT）对扩散模型进行微调，以最大化可微分奖励函数，实现了强化学习方法无法超越的强大性能，通过在采样过程中反向传播奖励梯度，并且提出了更高效的 DRaFT 变体：DRaFT-K 和 DRaFT-LV。同时，通过与之前的工作进行对比，为基于梯度微调算法的设计空间提供了一个统一的视角。

Sep, 2023

文本到图像生成的自博弈微调扩散模型

通过自我对抗调优技术 (SPIN-Diffusion) 实现了扩散模型的细化调整，超越了常规的监督式细调和强化学习方法，在生成人工智能领域取得了显著的性能和一致性改进。

Feb, 2024

DPOK: 用强化学习对文本到图像扩散模型进行微调

该研究提出了使用在线强化学习对文本到图像模型进行微调的方法，名为 DPOK，该方法将策略优化和 KL 正则化集成在一起，并通过增强学习来更新预训练的文本到图像扩散模型，实验证明该方法在图像文本对齐和图像质量方面优于监督式微调。

May, 2023

大规模强化学习用于扩散模型

本文介绍了一种有效可扩展的算法，利用强化学习（RL）在各种奖励函数上改进扩散模型，包括人类偏好、组合性和公平性，从而有效地解决了扩散模型与人类偏好不一致的问题，同时提高了生成样本的组合性和多样性。

Jan, 2024

无调谐扩散模型的直接噪声优化对齐

本论文主要关注扩散模型与连续奖励函数的对齐问题，提出了一种名为直接噪声优化（DNO）的新型对齐方法，通过在线生成过程中优化注入的噪声来调整扩散模型所学习的分布，以使生成的样本最大化目标奖励函数。实验结果表明，DNO 方法在人类反馈数据上训练的多个受欢迎奖励函数中取得了最先进的奖励分数和高质量的图像生成，且在合理的时间预算内完成。

May, 2024

反馈高效在线微调扩散模型

提出了一种新颖的强化学习算法，可有效地在可行样本的流形上进行探索，并通过对图像、生物序列和分子三个领域的理论分析和实证验证提供了一种后悔保证.

Feb, 2024

使用文本编码强化学习增强扩散模型

通过强化学习对文本编码器进行微调，可以提高文本与图像之间的对齐效果，从而提升图像质量。

Nov, 2023

利用人类反馈对扩散模型进行微调，无需任何奖励模型

使用直接偏好优化方法直接优化扩散模型，在不需要训练奖励模型的情况下，通过相对目标的比例作为人类偏好的代理实现了可比较的结果，减少了图像畸变率并生成了更安全的图像。

Nov, 2023

使用强化学习训练扩散模型

本文介绍了如何使用增强学习方法直接优化扩散模型以实现人类感知的图像质量和药物效果等下游目标，并提出了一种名为去噪扩散策略优化（DDPO）的类策略梯度算法，并进行了实证及效果验证。

May, 2023

HiFi Tuner：高保真主题驱动微调扩散模型

该论文研究了利用预训练的文本到图像扩散模型实现高保真个性化图像生成的进展。通过引入一种创新算法名为 HiFi Tuner 来增强在个性化图像生成过程中对对象外观保持的能力，提出了基于参数高效的微调框架，包括去噪过程和关键性倒转过程。此外，还提出了参考引导生成方法，利用参考图像的关键性倒转来减轻不想要的主题变化和伪影。实验结果表明，通过仅在文本嵌入上进行微调，CLIP-T 得分提高了 3.6 分，DINO 得分提高了 9.6 分，当对所有参数进行微调时，HiFi Tuner 在 CLIP-T 得分上提高了 1.2 分，在 DINO 得分上提高了 1.2 分，达到了新的技术水平。

Nov, 2023