PRDP：基于近似奖励差异预测的扩展模型大规模奖励微调

Feb, 2024

PRDP：基于近似奖励差异预测的扩展模型大规模奖励微调

PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models

Fei Deng, Qifei Wang, Wei Wei, Matthias Grundmann, Tingbo Hou

TL;DR我们提出了 Proximal Reward Difference Prediction (PRDP) 方法，通过稳定的黑盒子奖励微调在大规模提示数据集上实现了扩散模型。

Abstract

reward finetuning has emerged as a promising approach to aligning foundation models with downstream objectives. Remarkable success has been achieved in the language domain by using reinforcement learning (RL) to

reward finetuning reinforcement learning prdp diffusion models large-scale training

发现论文，激发创造

利用人类反馈对扩散模型进行微调，无需任何奖励模型

使用直接偏好优化方法直接优化扩散模型，在不需要训练奖励模型的情况下，通过相对目标的比例作为人类偏好的代理实现了可比较的结果，减少了图像畸变率并生成了更安全的图像。

Nov, 2023

通过分布偏好奖励建模对齐群体反馈

分布偏好奖励模型（DPRM）是一个简单而有效的框架，通过将最大语言模型（LLM）与多样化的人类偏好对齐，以提高对人群偏好的代表性。

Feb, 2024

基于扩散模型的像素级强化学习：从丰富反馈中进行强化学习

扩展了基于人类反馈训练的静态扩散模型生成算法，提出了基于像素的策略优化算法 (PXPO)，通过针对每个像素提供更细致的奖励给模型。

Apr, 2024

DPOK: 用强化学习对文本到图像扩散模型进行微调

该研究提出了使用在线强化学习对文本到图像模型进行微调的方法，名为 DPOK，该方法将策略优化和 KL 正则化集成在一起，并通过增强学习来更新预训练的文本到图像扩散模型，实验证明该方法在图像文本对齐和图像质量方面优于监督式微调。

May, 2023

具有偏好反馈的差分隐私奖励估计

本研究探讨了在保护个体标注者隐私的同时，通过偏好反馈来估计奖励模型的问题，使用了基于参数的 Bradley-Terry-Luce (BTL) 模型，提供了关于奖励参数估计误差的上下界，以及在本地模型和中央模型下确保标签 - 隐私所需的额外成本，仿真结果验证了理论结果。

Oct, 2023

使用强化学习训练扩散模型

本文介绍了如何使用增强学习方法直接优化扩散模型以实现人类感知的图像质量和药物效果等下游目标，并提出了一种名为去噪扩散策略优化（DDPO）的类策略梯度算法，并进行了实证及效果验证。

May, 2023

通过奖励模型精华提高偏好鲁棒性优化

通过预训练、直接偏好优化和蒸馏方法，改进了离线对齐过程中偏好数据分布转移的鲁棒性，同时保留了简单的监督学习性质。

May, 2024

基于奖励的条件扩散：可证明的分布估计与奖励优化

探索基于条件扩散模型的奖励定向生成方法和理论。此生成器可有效地学习和采样奖励条件的数据分布，并且生成新的群体移向用户指定的目标奖励值，通过实证研究验证这一理论并探究外推强度与样本质量之间的关系。

Jul, 2023

面对扩散模型中的奖励过优化：归纳和初要偏见的视角

通过引入时间感知、激活神经元重置的策略，我们提出了一种优化算法以降低扩散模型中的奖励过度优化问题，实证结果表明其在缓解奖励过度优化方面具有显著的有效性。

Feb, 2024

InstructRL4Pix：通过强化学习训练图像编辑的扩散

通过使用增强学习引导图像编辑方法（InstructRL4Pix）来生成由目标对象的注意力地图引导的图像扩散模型，该方法通过计算注意力地图之间的距离作为奖励函数来最大化奖励模型的输出，并使用邻近策略优化（PPO）对扩散模型进行微调，以实现基于自然人命令的准确图像编辑。实验证实 InstructRL4Pix 突破了传统数据集的限制，利用无监督学习来优化编辑目标，并实现了精确的图像编辑。

Jun, 2024