最大熵强化学习 (可证明地) 解决了一些鲁棒强化学习问题
本文阐述了最大熵强化学习方法在解决某些具有奖励函数变异的控制问题中的优化作用,该方法还可以解决部分可观察马尔可夫决策过程且与双方博弈等效,其可以提供一定的洞见,指出在任务目标具有不确定性的领域中最大熵强化学习方法特别适用。
Oct, 2019
本文研究熵作为内在奖励的效果,并在一种普遍的 MaxEnt RL 方法 —— 软性演员 - 评论家(SAC)中进行各种消融研究。我们发现熵奖励应谨慎用于策略评估,并且仅使用熵正则化来进行策略改进可获得可比甚至更好的性能和鲁棒性。因此,我们建议要么将熵奖励归一化为零平均值(SACZero),要么仅仅从策略评估中删除它(SACLite)以获得更好的实际结果。
Jan, 2022
提出一种基于最大因果熵的方法来学习环境约束下的最优策略,该方法利用在约束下运作的代理的演示进行学习,证明了其在表格设置中的收敛性并提供了一个可扩展到复杂环境的近似值。通过评估奖励和约束违规数,评估学习策略的有效性,并基于其在其他代理中的可转移性评估学习成本函数。此方法已经在各种任务和环境中表现优于现有技术,能够处理具有随机动态和连续状态动作空间的问题。
May, 2023
本文提出了一种新的马尔可夫决策过程类别 Tsallis MDPs,用于强化学习问题和各种类型熵的使用,包括标准 Shannon-Gibbs 熵,并使用一个额外的实数值参数,称为熵指数,控制了勘探倾向和优化政策的不同维度,所提出方法采用 Tsallis 的熵极大化,并以无模型演员 - 评论家策略进行实现,在 MuJoCo 模拟器上进行验证并取得最先进的性能。
Jan, 2019
我们引入了一种基于能量的正则化流(EBFlow)建模的新的最大熵强化学习框架,该框架集成了策略评估步骤和策略改进步骤,实现了单一的目标训练过程,并且能够计算用于策略评估目标的软值函数,同时支持多模态动作分布的建模和高效的动作采样。我们在 MuJoCo 基准套件和 Omniverse Isaac Gym 模拟的多个高维机器人任务上进行了实验评估,结果表明我们的方法相较于广泛采用的代表性基准方法具有更优越的性能。
May, 2024
通过加权熵的方法构建的一个新的多目标强化学习优化目标,同时配合最大熵法优化,通过比较 OpenAI Gym 的多目标机器人任务与其他基线实验,证实了该方法在性能和样本效率方面具有显著的改进。
May, 2019
通过最大化 Renyi 熵的方法,提出了一种适用于元 RL 的无奖励强化学习框架,该框架有效地解决了探索和利用分离的问题,并设计了相应的强化学习算法 (batch RL algorithm) 以便在规划阶段中能更好地处理任意奖励函数。
Jun, 2020
本文提出了一个名为 Extreme Q-Learning 的在线和离线 MaxEnt Q-learning 算法,通过使用极值理论(EVT)来直接建模最大价值,而无需使用超出分布的操作估计 Q 值。该算法在 D4RL 基准测试中表现良好,并在在线 DM 控制任务上适度改进了 SAC 和 TD3。
Jan, 2023
强化学习中,选择好的奖励函数是一个重要且具有挑战性的问题。本文提出了一种使用最大奖励而不是累积奖励的算法,适用于确定性和随机环境,并将其与现有的强化学习算法相结合。在实验中,我们研究了该算法在两个目标达成环境中的性能,并证明了其相对于标准强化学习算法的优势。
Feb, 2024