May, 2024

无调谐扩散模型的直接噪声优化对齐

TL;DR本论文主要关注扩散模型与连续奖励函数的对齐问题,提出了一种名为直接噪声优化(DNO)的新型对齐方法,通过在线生成过程中优化注入的噪声来调整扩散模型所学习的分布,以使生成的样本最大化目标奖励函数。实验结果表明,DNO 方法在人类反馈数据上训练的多个受欢迎奖励函数中取得了最先进的奖励分数和高质量的图像生成,且在合理的时间预算内完成。