无调谐扩散模型的直接噪声优化对齐

May, 2024

无调谐扩散模型的直接噪声优化对齐

Tuning-Free Alignment of Diffusion Models with Direct Noise Optimization

Zhiwei Tang, Jiangweizhi Peng, Jiasheng Tang, Mingyi Hong, Fan Wang...

TL;DR本论文主要关注扩散模型与连续奖励函数的对齐问题，提出了一种名为直接噪声优化（DNO）的新型对齐方法，通过在线生成过程中优化注入的噪声来调整扩散模型所学习的分布，以使生成的样本最大化目标奖励函数。实验结果表明，DNO 方法在人类反馈数据上训练的多个受欢迎奖励函数中取得了最先进的奖励分数和高质量的图像生成，且在合理的时间预算内完成。

Abstract

In this work, we focus on the alignment problem of diffusion models with a continuous reward function, which represents specific objective

alignment problem diffusion models direct noise optimization reward function online generation

发现论文，激发创造

优化扩散噪声可作为通用运动先验

我们提出了扩散噪声优化（DNO），一种新的方法，通过有效利用现有的运动扩散模型作为广泛运动相关任务的运动先验，而无需为每个新任务训练特定于任务的扩散模型。DNO 支持任何可将准则定义为运动函数的用例，并在运动编辑和控制以及运动去噪和补全方面优于现有方法，同时使其具有适应多种编辑模式的能力，包括改变轨迹、姿势、关节位置或避开新添加的障碍物，并能在推理时间内实现这些结果而无需模型重训练，为运动表示的任何定义的奖励或损失函数提供了很大的灵活性。

Dec, 2023

利用人类反馈对扩散模型进行微调，无需任何奖励模型

使用直接偏好优化方法直接优化扩散模型，在不需要训练奖励模型的情况下，通过相对目标的比例作为人类偏好的代理实现了可比较的结果，减少了图像畸变率并生成了更安全的图像。

Nov, 2023

函数空间中的基于分数的扩散模型

本研究提出了一种名为去噪扩散算子的数学严谨框架，用于在函数空间中训练扩散模型，将它推广到无限维函数空间的应用，其中前向过程是逐渐扰动输入函数，生成过程是通过积分的函数值 Langevin 动力学实现。

Feb, 2023

直接纳什优化：通过一般偏好教导语言模型自我改进

本文研究了使用强力预言机的偏好反馈来帮助模型迭代改进的训练后大语言模型。通过直接优化一般偏好关系，本文介绍了可证明且可扩展的 Direct Nash Optimization 算法，并在实验中证明其在性能上优于其他模型。

Apr, 2024

文本到图像扩散模型的深度奖励监督

通过直接监督文本到图像扩散模型的最终输出图像并通过迭代抽样过程向输入噪声反向传播的算法，Deep Reward Tuning (DRTune)，能够有效地优化与低级奖励相关的模型。通过在各种奖励模型上进行了全面的评估，DRTune 的性能始终优于其他算法，尤其是在浅层监督方法失效的低级控制信号方面。此外，通过 DRTune 对稳定扩散 XL 1.0 (SDXL 1.0) 模型进行了微调，以优化 Human Preference Score v2.1，得到了 Favorable Diffusion XL 1.0 (FDXL 1.0) 模型，FDXL 1.0 在图像质量上显著优于 SDXL 1.0，并与 Midjourney v5.2 达到了可比较的质量水平。

May, 2024

物理相关扩散模型

通过在模型训练过程中加入约束条件使其生成的样本更符合所施加的约束，从而提高生成样本与约束的一致性，且相较于现有方法有更好的性能且不影响推断速度；该方法还可以自然地防止过拟合。

Mar, 2024

使用强化学习训练扩散模型

本文介绍了如何使用增强学习方法直接优化扩散模型以实现人类感知的图像质量和药物效果等下游目标，并提出了一种名为去噪扩散策略优化（DDPO）的类策略梯度算法，并进行了实证及效果验证。

May, 2023

直接在可微奖励上微调扩散模型

通过直接奖励微调方法（DRaFT）对扩散模型进行微调，以最大化可微分奖励函数，实现了强化学习方法无法超越的强大性能，通过在采样过程中反向传播奖励梯度，并且提出了更高效的 DRaFT 变体：DRaFT-K 和 DRaFT-LV。同时，通过与之前的工作进行对比，为基于梯度微调算法的设计空间提供了一个统一的视角。

Sep, 2023

通过扩散学习实现目标达成

Diffusion models 可以将高维空间中的随机噪声通过迭代去噪映射到目标流形，来解决强化学习中以目标条件为导向的问题。本文提出了一种名为 Merlin 的方法，利用类似扩散过程的思想，在高维空间中构建从潜在目标状态扩散而远离的轨迹，并通过学习类似分值函数的目标条件策略，能够从任意初始状态到达预定义或新颖的目标。本文在离线目标达成任务上进行理论验证和实证实验，结果表明这种针对序列决策问题的扩散思路是一种简单、可扩展且有效的方向。

Oct, 2023

通过奖励引导探索实现可控扩散模型

本文提出了一种名为 RGDM 的模型，通过强化学习（RL）引导扩散模型的训练阶段，从而实现对样本生成的控制。在 3D 形状和分子生成任务上的实验表明，该模型相较于现有的条件扩散模型具有显著的改进。

Apr, 2023