面对扩散模型中的奖励过优化：归纳和初要偏见的视角

Feb, 2024

面对扩散模型中的奖励过优化：归纳和初要偏见的视角

Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases

Ziyi Zhang, Sen Zhang, Yibing Zhan, Yong Luo, Yonggang Wen...

TL;DR通过引入时间感知、激活神经元重置的策略，我们提出了一种优化算法以降低扩散模型中的奖励过度优化问题，实证结果表明其在缓解奖励过度优化方面具有显著的有效性。

Abstract

Bridging the gap between diffusion models and human preferences is crucial for their integration into practical generative workflows. While optimizing downstream reward models has emerged as a promising alignment strategy, concerns arise regarding the risk of excessive optimization wit

diffusion models reward overoptimization inductive bias primacy bias temporal diffusion policy optimization

发现论文，激发创造

通过保守微调扩散模型，建立基于模型的优化和生成建模的桥梁

通过优化奖励模型的方式，我们采用了一种混合方法来调优顶尖扩散模型，结合了生成模型和基于模型的优化方法的优势，以求解 AI 驱动的设计问题。在离线数据集的常见科学领域中，我们关注的是一个奖励模型未知的离线环境，通过学习静态离线数据集，解决过度优化问题，同时利用奖励模型的外推能力最大化了离线数据中的设计性能。

May, 2024

文本 - 图像扩散与偏好的密集奖励观点对齐

通过引入时间折扣机制以适应 T2I 生成层次结构，本文提出了一种可行的对齐目标，强调 T2I 反向链中的初始步骤，实验证明该方法在单个和多个提示生成方面与相关基线方法具有竞争力。

Feb, 2024

PRDP：基于近似奖励差异预测的扩展模型大规模奖励微调

我们提出了 Proximal Reward Difference Prediction (PRDP) 方法，通过稳定的黑盒子奖励微调在大规模提示数据集上实现了扩散模型。

Feb, 2024

利用人类反馈对扩散模型进行微调，无需任何奖励模型

使用直接偏好优化方法直接优化扩散模型，在不需要训练奖励模型的情况下，通过相对目标的比例作为人类偏好的代理实现了可比较的结果，减少了图像畸变率并生成了更安全的图像。

Nov, 2023

模型为基础的强化学习中的优先倾向

针对模型驱动的强化学习中的原生偏见问题，提出了一种名为 “世界模型重置” 的方法，并在多个连续控制任务和离散控制任务中验证了该方法的有效性。

Oct, 2023

深度强化学习中的优先偏差

本文研究了深度强化学习算法中的优先性偏差问题，提出了一种简单且通用的机制来解决这个问题，并将其应用于离散和连续动作领域的算法中，从而显著提高了它们的性能。

May, 2022

投影遗憾：通过扩散模型减少背景偏差用于新颖性检测

通过比较测试图像与其基于扩散模型的投影之间的感知距离以检测异常，Projection Regret (PR) 是一种有效的新颖性检测方法，通过与递归投影进行比较来取消背景偏差，实验证明 PR 在生成模型为基础的新颖性检测方法方面明显优于现有技术。

Dec, 2023

使用强化学习训练扩散模型

本文介绍了如何使用增强学习方法直接优化扩散模型以实现人类感知的图像质量和药物效果等下游目标，并提出了一种名为去噪扩散策略优化（DDPO）的类策略梯度算法，并进行了实证及效果验证。

May, 2023

通过扩散行为对得分正则化策略优化

我们提出了一种从评论家模型和预训练的扩散行为模型中有效地提取确定性推理策略的方法，利用后者在优化过程中直接规范化行为分布的评分函数，从而在训练和评估期间完全避免计算密集型和耗时的扩散采样方案，扩散建模的强大生成能力使我们的方法在 D4RL 任务上将行动采样速度提高了 25 倍以上，同时仍保持着最先进的性能。

Oct, 2023

感知优先的弥散模型训练

本文研究了扩散模型学习以优化对应丢失函数的加权和（去噪得分匹配损失）来恢复不同噪声水平的嘈杂数据，并提出了恢复受特定噪声水平损坏的数据作为学习丰富视觉概念的适当预先任务的方法，通过重新设计目标函数的加权方案，在训练过程中优先考虑这些噪声水平，我们证明了我们简单的加权方案重构可以显著提高扩散模型的性能。

Apr, 2022