Feb, 2024

面对扩散模型中的奖励过优化:归纳和初要偏见的视角

TL;DR通过引入时间感知、激活神经元重置的策略,我们提出了一种优化算法以降低扩散模型中的奖励过度优化问题,实证结果表明其在缓解奖励过度优化方面具有显著的有效性。