Jun, 2024

基于能量模型的最大熵逆强化学习中的扩散模型

TL;DR我们提出了一种最大熵反向强化学习 (IRL) 方法,用于改善扩散生成模型的样本质量,尤其是在生成时间步骤较少的情况下。通过训练或微调扩散模型,我们使用从训练数据估计的对数概率密度来训练(或微调)扩散模型。我们采用基于能量的模型 (EBM) 表示对数密度,因此我们的方法可以简化为同时训练扩散模型和 EBM。我们的 IRL 方式称为最大熵 IRL 的扩散 (DxMI),它是一个极小极大问题,在两个模型都收敛到数据分布时达到平衡。熵最大化在 DxMI 中起着关键作用,有助于探索扩散模型并确保 EBM 的收敛。我们还提出了一种名为动态规划扩散 (DxDP) 的新型强化学习算法作为 DxMI 中的子程序。DxDP 通过将原问题转化为最优控制的形式,其中值函数代替了时间的反向传播,从而使 DxMI 中的扩散模型更新变得高效。我们的实证研究表明,使用 DxMI 进行微调的扩散模型可以在仅需 4 和 10 个步骤的情况下生成高质量的样本。此外,DxMI 使得在没有 MCMC 的情况下训练 EBM 变得稳定,提高了异常检测性能。