最大熵奖罚强化学习

May, 2024

Reward-Punishment Reinforcement Learning with Maximum Entropy

Jiexin Wang, Eiji Uchibe

TL;DR我们介绍了 “soft Deep MaxPain”（softDMP）算法，将长期策略熵的优化整合到奖惩强化学习目标中，旨在提高样本效率和鲁棒性，并解决了前一篇 Deep MaxPain 方法中的两个问题，通过实证研究在两种离散马尔可夫决策过程环境中探索了 DMP 方法的关键进展，以及平滑学习算子在 “翻转” 技巧中的作用。对于第二个问题，我们提出了基于疼痛寻求子策略和目标达到子策略之和比例的概率分类器，用于单独更新奖励和惩罚动作值函数的回放缓冲区，我们的框架在 ROS Gazebo 模拟下的 Turtlebot 3 迷宫导航任务中展示了优越的性能。

Abstract

We introduce the ``soft deep maxpain'' (softDMP) algorithm, which integrates the optimization of long-term policy entropy into reward-punishment

soft deep maxpain reinforcement learning policy entropy negated pain-seeking sub-policy probabilistic classifier

发现论文，激发创造

最大熵深度强化学习的软策略梯度方法

本文提出了一种新的深度强化学习算法，利用基于熵正则化的期望回报目标推导出软策略梯度，将其与软 Bellman 方程相结合，得到了名为 DSPG 的最大熵深度强化学习算法，该算法采用双重采样方法确保学习的稳定性，有效提高了表现，克服了已有方法在大规模离线数据训练以及具有高维动作状态问题的稳定性不足等问题。

Sep, 2019

熵正则化马尔科夫决策过程的统一视角

提出一种针对 Markov 决策过程的熵正则化平均回报强化学习的一般性框架，通过使用条件熵来对联合状态 - 动作分布进行正则化，将一些先进的熵 - 正则化强化学习算法形式化为 Mirror Descent 或 Dual Averaging 的近似变体，并在简单的强化学习实验中展示了各种正则化技术对学习性能的影响。

May, 2017

软最大熵深度强化学习中的 Stochastic Actor-Critic 算法

本文提出一种基于最大熵强化学习框架的深度离策略演员 - 评论家算法，该算法通过离策略更新和稳定的随机演员 - 评论家公式结合，实现了在一系列连续控制基准任务上的最先进表现。

Jan, 2018

实践中是否需要熵奖励？

本文研究熵作为内在奖励的效果，并在一种普遍的 MaxEnt RL 方法 —— 软性演员 - 评论家（SAC）中进行各种消融研究。我们发现熵奖励应谨慎用于策略评估，并且仅使用熵正则化来进行策略改进可获得可比甚至更好的性能和鲁棒性。因此，我们建议要么将熵奖励归一化为零平均值（SACZero），要么仅仅从策略评估中删除它（SACLite）以获得更好的实际结果。

Jan, 2022

带熵正则化的约束马尔可夫决策过程的双重方法

研究了采用软最大化参数化的熵正则化约束马尔可夫决策过程及其 Lagrange 对偶函数和约束违规等问题。并提出了加速对偶下降方法以实现全局收敛性。

Oct, 2021

通过基于能量的标准化流进行最大熵强化学习

我们引入了一种基于能量的正则化流（EBFlow）建模的新的最大熵强化学习框架，该框架集成了策略评估步骤和策略改进步骤，实现了单一的目标训练过程，并且能够计算用于策略评估目标的软值函数，同时支持多模态动作分布的建模和高效的动作采样。我们在 MuJoCo 基准套件和 Omniverse Isaac Gym 模拟的多个高维机器人任务上进行了实验评估，结果表明我们的方法相较于广泛采用的代表性基准方法具有更优越的性能。

May, 2024

最大熵正则化的多目标强化学习

通过加权熵的方法构建的一个新的多目标强化学习优化目标，同时配合最大熵法优化，通过比较 OpenAI Gym 的多目标机器人任务与其他基线实验，证实了该方法在性能和样本效率方面具有显著的改进。

May, 2019

最大因果熵限制的强化学习

提出一种基于最大因果熵的方法来学习环境约束下的最优策略，该方法利用在约束下运作的代理的演示进行学习，证明了其在表格设置中的收敛性并提供了一个可扩展到复杂环境的近似值。通过评估奖励和约束违规数，评估学习策略的有效性，并基于其在其他代理中的可转移性评估学习成本函数。此方法已经在各种任务和环境中表现优于现有技术，能够处理具有随机动态和连续状态动作空间的问题。

May, 2023

具有深度能量策略的强化学习

提出了一种学习连续状态和动作表达性能量策略的方法，其中软 Q 学习表达了最佳策略，该方法使用 Boltzmann 分布近似样本。通过游泳和行走机器人的模拟实验，证实了该算法的改进探索和组合性，它允许在任务之间转移技能，并且与演员 - 评论员方法存在联系，可以视为对相应能量模型进行近似推断。

Feb, 2017

最大后验策略优化

介绍了一种基于最大后验策略优化的强化学习算法，并开发出两种离线策略算法，证明了它们在深度强化学习方面与现有方法的竞争力，并在连续控制方面提高了样本效率，避免了过早收敛和对超参数设置的鲁棒性。

Jun, 2018