最大扩散强化学习
我们提出了一种最大熵反向强化学习 (IRL) 方法,用于改善扩散生成模型的样本质量,尤其是在生成时间步骤较少的情况下。通过训练或微调扩散模型,我们使用从训练数据估计的对数概率密度来训练(或微调)扩散模型。我们采用基于能量的模型 (EBM) 表示对数密度,因此我们的方法可以简化为同时训练扩散模型和 EBM。我们的 IRL 方式称为最大熵 IRL 的扩散 (DxMI),它是一个极小极大问题,在两个模型都收敛到数据分布时达到平衡。熵最大化在 DxMI 中起着关键作用,有助于探索扩散模型并确保 EBM 的收敛。我们还提出了一种名为动态规划扩散 (DxDP) 的新型强化学习算法作为 DxMI 中的子程序。DxDP 通过将原问题转化为最优控制的形式,其中值函数代替了时间的反向传播,从而使 DxMI 中的扩散模型更新变得高效。我们的实证研究表明,使用 DxMI 进行微调的扩散模型可以在仅需 4 和 10 个步骤的情况下生成高质量的样本。此外,DxMI 使得在没有 MCMC 的情况下训练 EBM 变得稳定,提高了异常检测性能。
Jun, 2024
本研究利用随机热力学和系统动力学的原理,探索通过扩散过程进行奖励塑造的方法,为探索 - 开发权衡提供了一个优雅的框架,并揭示了信息熵、随机系统动力学之间的关系及其对熵产生的影响,从而构建了一个双重框架,可作为派生有效策略的最大熵程序或计算信息成本和利益的修改成本优化程序的解释,为 RL 中的信息导向公式提供了新的视角。
Jun, 2023
提出了一种基于高斯过程和最大方差缩减算法的模型基础方法,用于学习多输出名义转移动力学,克服了强化学习中的若干挑战,并在分布移位方面展示了算法的鲁棒性以及样本数量上的优越性。
Sep, 2023
该论文证明了最大熵(MaxEnt)强化学习可以用于学习对某些动态干扰和奖励函数干扰具有鲁棒性的策略,是一种简单并具有吸引力形式保证的鲁棒强化学习方法。
Mar, 2021
本文针对马可夫决策过程上的反向强化学习问题,即通过一个环境模型以及一个奖励函数,推断出状态、行动、和特征限制,以此来激励智能体的行为。本文针对该问题提出了一个基于最大熵 IRL 的方法,并提出了一个迭代算法,以最大似然的方式推断最佳的约束条件,同时通过仿真实验和现实数据验证了其有效性。
Sep, 2019
我们考虑了在未知的随机马尔可夫环境或游戏中,从代理人的示范学习的问题。我们旨在估计代理人的偏好,以构建同一任务的改进策略。为了做到这一点,我们将已知 MDP 中逆强化学习的概率方法扩展到未知动态或对手的情况。我们通过导出演示者策略和效用的两个简化概率模型来实现这一点,为了易于处理,我们使用了最大后验估计而不是完整的贝叶斯推断。在先验分布相同的情况下,这结果是凸优化问题。我们发现所得到的算法与其他了解动态的逆强化学习方法相比具有很高的竞争力。
Aug, 2014
提出一种基于最大因果熵的方法来学习环境约束下的最优策略,该方法利用在约束下运作的代理的演示进行学习,证明了其在表格设置中的收敛性并提供了一个可扩展到复杂环境的近似值。通过评估奖励和约束违规数,评估学习策略的有效性,并基于其在其他代理中的可转移性评估学习成本函数。此方法已经在各种任务和环境中表现优于现有技术,能够处理具有随机动态和连续状态动作空间的问题。
May, 2023
本文提出了一种新的马尔可夫决策过程类别 Tsallis MDPs,用于强化学习问题和各种类型熵的使用,包括标准 Shannon-Gibbs 熵,并使用一个额外的实数值参数,称为熵指数,控制了勘探倾向和优化政策的不同维度,所提出方法采用 Tsallis 的熵极大化,并以无模型演员 - 评论家策略进行实现,在 MuJoCo 模拟器上进行验证并取得最先进的性能。
Jan, 2019
论文研究强化学习及拍卖设计的优化决策算法,包括最大熵强化学习、基于贝叶斯角度的强化学习、策略学习算法 LEEP、匿名拍卖用于对称性保护的神经网络 EquivariantNet 及用于拍卖学习问题的双人博弈算法 ALGNet。
Oct, 2022