实践中是否需要熵奖励?
该论文证明了最大熵(MaxEnt)强化学习可以用于学习对某些动态干扰和奖励函数干扰具有鲁棒性的策略,是一种简单并具有吸引力形式保证的鲁棒强化学习方法。
Mar, 2021
本文阐述了最大熵强化学习方法在解决某些具有奖励函数变异的控制问题中的优化作用,该方法还可以解决部分可观察马尔可夫决策过程且与双方博弈等效,其可以提供一定的洞见,指出在任务目标具有不确定性的领域中最大熵强化学习方法特别适用。
Oct, 2019
我们引入了一种基于能量的正则化流(EBFlow)建模的新的最大熵强化学习框架,该框架集成了策略评估步骤和策略改进步骤,实现了单一的目标训练过程,并且能够计算用于策略评估目标的软值函数,同时支持多模态动作分布的建模和高效的动作采样。我们在 MuJoCo 基准套件和 Omniverse Isaac Gym 模拟的多个高维机器人任务上进行了实验评估,结果表明我们的方法相较于广泛采用的代表性基准方法具有更优越的性能。
May, 2024
通过最大化 Renyi 熵的方法,提出了一种适用于元 RL 的无奖励强化学习框架,该框架有效地解决了探索和利用分离的问题,并设计了相应的强化学习算法 (batch RL algorithm) 以便在规划阶段中能更好地处理任意奖励函数。
Jun, 2020
提出一种针对 Markov 决策过程的熵正则化平均回报强化学习的一般性框架,通过使用条件熵来对联合状态 - 动作分布进行正则化,将一些先进的熵 - 正则化强化学习算法形式化为 Mirror Descent 或 Dual Averaging 的近似变体,并在简单的强化学习实验中展示了各种正则化技术对学习性能的影响。
May, 2017
通过交互式学习使用线性 softmax 策略和线性 MDP 更新的最简单的 actor-critic 方法,通过高熵优化实现了无需正则化或探索即可找到最优政策,从而消除了 MDP 中均匀混合假设的限制。
Oct, 2021
基于策略梯度的强化学习代理为了多样性,探究了正则化对行动多样性的影响,并通过实验结果证明了多样性促进的策略正则化在个性化任务的性能提升方面具有显著优势,同时不损失准确性。
Oct, 2023
提出一种基于最大因果熵的方法来学习环境约束下的最优策略,该方法利用在约束下运作的代理的演示进行学习,证明了其在表格设置中的收敛性并提供了一个可扩展到复杂环境的近似值。通过评估奖励和约束违规数,评估学习策略的有效性,并基于其在其他代理中的可转移性评估学习成本函数。此方法已经在各种任务和环境中表现优于现有技术,能够处理具有随机动态和连续状态动作空间的问题。
May, 2023
本文提出了一种新的马尔可夫决策过程类别 Tsallis MDPs,用于强化学习问题和各种类型熵的使用,包括标准 Shannon-Gibbs 熵,并使用一个额外的实数值参数,称为熵指数,控制了勘探倾向和优化政策的不同维度,所提出方法采用 Tsallis 的熵极大化,并以无模型演员 - 评论家策略进行实现,在 MuJoCo 模拟器上进行验证并取得最先进的性能。
Jan, 2019