基于能量模型的最大熵逆强化学习中的扩散模型

Jun, 2024

基于能量模型的最大熵逆强化学习中的扩散模型

Maximum Entropy Inverse Reinforcement Learning of Diffusion Models with Energy-Based Models

Sangwoong Yoon, Himchan Hwang, Dohyun Kwon, Yung-Kyun Noh, Frank C. Park

TL;DR我们提出了一种最大熵反向强化学习 (IRL) 方法，用于改善扩散生成模型的样本质量，尤其是在生成时间步骤较少的情况下。通过训练或微调扩散模型，我们使用从训练数据估计的对数概率密度来训练（或微调）扩散模型。我们采用基于能量的模型 (EBM) 表示对数密度，因此我们的方法可以简化为同时训练扩散模型和 EBM。我们的 IRL 方式称为最大熵 IRL 的扩散 (DxMI)，它是一个极小极大问题，在两个模型都收敛到数据分布时达到平衡。熵最大化在 DxMI 中起着关键作用，有助于探索扩散模型并确保 EBM 的收敛。我们还提出了一种名为动态规划扩散 (DxDP) 的新型强化学习算法作为 DxMI 中的子程序。DxDP 通过将原问题转化为最优控制的形式，其中值函数代替了时间的反向传播，从而使 DxMI 中的扩散模型更新变得高效。我们的实证研究表明，使用 DxMI 进行微调的扩散模型可以在仅需 4 和 10 个步骤的情况下生成高质量的样本。此外，DxMI 使得在没有 MCMC 的情况下训练 EBM 变得稳定，提高了异常检测性能。

Abstract

We present a maximum entropy inverse reinforcement learning (IRL) approach for improving the sample quality of diffusion generative models, especially when the number of generation time steps is small. Similar to

maximum entropy inverse reinforcement learning diffusion generative models energy-based model reinforcement learning algorithm anomaly detection

发现论文，激发创造

无模型熵正则化逆强化学习算法的收敛性

给定一个专家示范数据集，逆向强化学习（IRL）旨在恢复一个专家所优化的奖励。本研究提出了一种无模型算法来解决熵正则化的 IRL 问题。我们采用随机梯度下降算法更新奖励，并采用随机软策略迭代算法更新策略，假设可以访问一个生成模型，我们证明了我们的算法使用 O (1/ε^2) 个马尔可夫决策过程（MDP）样本能够恢复一个 ε- 最优奖励。此外，我们证明在 O (1/ε^4) 个样本情况下，所恢复的奖励对应的最优策略与专家策略在总变差距离上接近 ε。

Mar, 2024

通过合作扩散恢复似然学习能量模型

我们提出了协同扩散恢复似然 (CDRL) 方法，该方法通过在逐渐噪声增加的数据版本上定义一系列的能量基模型 (EBM)，并配对每个 EBM 的初始化模型，以从 EBMs 学习并采样，从而显著提高了样本质量。在 CIFAR-10 和 ImageNet 32x32 上，与现有的 EBM 方法相比，我们的方法在 FID 得分上有明显提高，并且比 DRL 快 2 倍。此外，我们还将我们的方法扩展到组合生成和图像修复任务，并展示了 CDRL 在无分类器指导的条件生成中的兼容性，实现了与扩散模型相似的样本质量和样本多样性的权衡。

Sep, 2023

最大熵深层逆强化学习

本文提出了一个利用神经网络的表征能力来近似复杂的非线性奖励函数以解决反向强化学习问题的一般框架，并展示了最大熵范例在 IRL 中的有效训练方法，具有与现有基准相当的性能，超过基于高度变化奖励结构的替代基准。同时，作者将基本架构扩展为包括更大的卷积以消除对预计算空间特征的依赖并运作在原始输入表示上。

Jul, 2015

均场博弈中最大因果熵逆向强化学习

我们介绍了关于离散时间平均场博弈下最大因果熵逆强化学习问题。我们通过综述确定性和随机马尔科夫决策过程在有限和无限时域情景下的最大熵逆强化学习问题，提出了最大因果熵逆强化学习问题，这是一个非凸优化问题。我们使用线性规划的方式对问题进行了重构，建立了一个梯度下降算法来计算最优解，并通过将平均场博弈问题转化为广义纳什均衡问题来提出一种新算法。该算法可用于计算正向强化学习问题的平均场均衡，并应用于数值示例。我们注意到，该算法也适用于一般的平均场均衡计算。

Jan, 2024

最大扩散强化学习

通过利用各态过程的统计力学，提出了一种称为最大扩散增强学习的方法，在单次部署中可使代理能够连续学习，无论如何初始化。该方法可以去除代理经验之间的相关性，证明了其优于流行基准的最优性能，并为增强学习代理（如行走机器人和自动驾驶车辆）的透明和可靠决策铺平了道路。

Sep, 2023

逆强化学习的最大似然约束推断

本文针对马可夫决策过程上的反向强化学习问题，即通过一个环境模型以及一个奖励函数，推断出状态、行动、和特征限制，以此来激励智能体的行为。本文针对该问题提出了一个基于最大熵 IRL 的方法，并提出了一个迭代算法，以最大似然的方式推断最佳的约束条件，同时通过仿真实验和现实数据验证了其有效性。

Sep, 2019

反馈高效在线微调扩散模型

提出了一种新颖的强化学习算法，可有效地在可行样本的流形上进行探索，并通过对图像、生物序列和分子三个领域的理论分析和实证验证提供了一种后悔保证.

Feb, 2024

广义对比散度：借助逆强化学习的能量模型和扩散模型的联合训练

我们提出了广义对比散度（GCD），这是一种同时训练能量模型（EBM）和采样器的新型客观函数。GCD 通过用可训练的采样器（如扩散模型）取代马尔可夫链蒙特卡罗（MCMC）分布，将对比散度（Hinton, 2002）这种训练 EBM 的著名算法进行泛化。在 GCD 中，EBM 和扩散模型的联合训练被制定为一个极小 - 极大问题，在两个模型都收敛到数据分布时达到平衡。通过 GCD 的极小 - 极大学习与逆强化学习存在有趣的等价性，其中能量对应于负奖励，扩散模型是一种策略，真实数据是专家示范。我们提出了初步但有前途的结果，表明联合训练对 EBM 和扩散模型都有益处。GCD 使得 EBM 训练无需 MCMC，同时提高了扩散模型的样本质量。

Dec, 2023

通过奖励引导探索实现可控扩散模型

本文提出了一种名为 RGDM 的模型，通过强化学习（RL）引导扩散模型的训练阶段，从而实现对样本生成的控制。在 3D 形状和分子生成任务上的实验表明，该模型相较于现有的条件扩散模型具有显著的改进。

Apr, 2023

持续训练的扩散辅助能量模型

本文介绍了通过引入扩散数据和使用增强采样算法，通过持续对比散度学习一种联合的能量基模型，称为扩散辅助 - EBM，来实现复杂的，多模态分布的准确采样和密度估计，并进行了 2D 和图像实验，证明了持续训练的 EBMs 可以同时实现长时间稳定性，后训练图像生成和卓越的异常检测。

Apr, 2023