最大熵强化学习 (可证明地) 解决了一些鲁棒强化学习问题

ICLRMar, 2021

最大熵强化学习 (可证明地) 解决了一些鲁棒强化学习问题

Maximum Entropy RL (Provably) Solves Some Robust RL Problems

Benjamin Eysenbach, Sergey Levine

TL;DR该论文证明了最大熵（MaxEnt）强化学习可以用于学习对某些动态干扰和奖励函数干扰具有鲁棒性的策略，是一种简单并具有吸引力形式保证的鲁棒强化学习方法。

Abstract

Many potential applications of reinforcement learning (RL) require guarantees that the agent will perform well in the face of disturbances to the dynamics or reward function. In this paper, we prove theoretically

reinforcement learning maximum entropy robustness disturbances policy learning

发现论文，激发创造

如果最大熵强化学习是答案，那么问题是什么？

本文阐述了最大熵强化学习方法在解决某些具有奖励函数变异的控制问题中的优化作用，该方法还可以解决部分可观察马尔可夫决策过程且与双方博弈等效，其可以提供一定的洞见，指出在任务目标具有不确定性的领域中最大熵强化学习方法特别适用。

Oct, 2019

实践中是否需要熵奖励？

本文研究熵作为内在奖励的效果，并在一种普遍的 MaxEnt RL 方法 —— 软性演员 - 评论家（SAC）中进行各种消融研究。我们发现熵奖励应谨慎用于策略评估，并且仅使用熵正则化来进行策略改进可获得可比甚至更好的性能和鲁棒性。因此，我们建议要么将熵奖励归一化为零平均值（SACZero），要么仅仅从策略评估中删除它（SACLite）以获得更好的实际结果。

Jan, 2022

最大因果熵限制的强化学习

提出一种基于最大因果熵的方法来学习环境约束下的最优策略，该方法利用在约束下运作的代理的演示进行学习，证明了其在表格设置中的收敛性并提供了一个可扩展到复杂环境的近似值。通过评估奖励和约束违规数，评估学习策略的有效性，并基于其在其他代理中的可转移性评估学习成本函数。此方法已经在各种任务和环境中表现优于现有技术，能够处理具有随机动态和连续状态动作空间的问题。

May, 2023

Tsallis 强化学习：最大熵强化学习的统一框架

本文提出了一种新的马尔可夫决策过程类别 Tsallis MDPs，用于强化学习问题和各种类型熵的使用，包括标准 Shannon-Gibbs 熵，并使用一个额外的实数值参数，称为熵指数，控制了勘探倾向和优化政策的不同维度，所提出方法采用 Tsallis 的熵极大化，并以无模型演员 - 评论家策略进行实现，在 MuJoCo 模拟器上进行验证并取得最先进的性能。

Jan, 2019

通过基于能量的标准化流进行最大熵强化学习

我们引入了一种基于能量的正则化流（EBFlow）建模的新的最大熵强化学习框架，该框架集成了策略评估步骤和策略改进步骤，实现了单一的目标训练过程，并且能够计算用于策略评估目标的软值函数，同时支持多模态动作分布的建模和高效的动作采样。我们在 MuJoCo 基准套件和 Omniverse Isaac Gym 模拟的多个高维机器人任务上进行了实验评估，结果表明我们的方法相较于广泛采用的代表性基准方法具有更优越的性能。

May, 2024

最大熵正则化的多目标强化学习

通过加权熵的方法构建的一个新的多目标强化学习优化目标，同时配合最大熵法优化，通过比较 OpenAI Gym 的多目标机器人任务与其他基线实验，证实了该方法在性能和样本效率方面具有显著的改进。

May, 2019

自适应惊喜内在动机的无监督强化学习

提出了一个基于多臂赌博机问题的代理模型，该模型根据环境的熵条件动态调整目标，从而鼓励在不同熵环境中出现新的行为和学习技能。

May, 2024

通过最大化 Rényi 熵进行无奖励强化学习框架探索

通过最大化 Renyi 熵的方法，提出了一种适用于元 RL 的无奖励强化学习框架，该框架有效地解决了探索和利用分离的问题，并设计了相应的强化学习算法 (batch RL algorithm) 以便在规划阶段中能更好地处理任意奖励函数。

Jun, 2020

极端 Q-Learning: 无熵最大熵强化学习

本文提出了一个名为 Extreme Q-Learning 的在线和离线 MaxEnt Q-learning 算法，通过使用极值理论（EVT）来直接建模最大价值，而无需使用超出分布的操作估计 Q 值。该算法在 D4RL 基准测试中表现良好，并在在线 DM 控制任务上适度改进了 SAC 和 TD3。

Jan, 2023

突破极限：重塑强化学习中的奖励

强化学习中，选择好的奖励函数是一个重要且具有挑战性的问题。本文提出了一种使用最大奖励而不是累积奖励的算法，适用于确定性和随机环境，并将其与现有的强化学习算法相结合。在实验中，我们研究了该算法在两个目标达成环境中的性能，并证明了其相对于标准强化学习算法的优势。

Feb, 2024