DSAC-C: 基于约束的最大熵算法用于鲁棒离散软演员评论家

Oct, 2023

DSAC-C: 基于约束的最大熵算法用于鲁棒离散软演员评论家

DSAC-C: Constrained Maximum Entropy for Robust Discrete Soft-Actor Critic

Dexter Neo, Tsuhan Chen

TL;DR我们提出了一种新颖的 Soft Actor-Critic（SAC）算法扩展。基于最大熵原理，我们认为通过从替代性评论策略中得出的附加统计约束，可以进一步改进离散 SAC 算法。此外，我们的研究结果表明，这些约束对于潜在领域转移提供了额外的稳健性，这对于在现实世界中安全部署强化学习代理至关重要。我们提供了理论分析并展示了对 Atari 2600 游戏的分布内和分布外低数据范例的实证结果。

Abstract

We present a novel extension to the family of soft actor-critic (SAC) algorithms. We argue that based on the maximum entropy principle, discrete

soft actor-critic maximum entropy principle discrete sac statistical constraints domain shifts

发现论文，激发创造

软性演员 - 评论家算法及其应用

本文介绍了一种基于最大熵强化学习框架的离线演员 - 评论家算法 Soft Actor-Critic，其中演员旨在同时最大化期望回报和熵，以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进，如约束模型等，提高了模型的稳定性和训练速度，并在基准任务以及四足机器人的运动和灵巧手的机器人操作等现实世界挑战任务中取得了最先进的性能，在样本效率和渐近性能方面优于以往的在线和离线算法。

Dec, 2018

具有真正不等约束的软演员 - 评论算法

本篇论文在软性演员批评的强化学习中加入松弛变量，以适当处理不等式约束，最大化策略熵，从而实现了更高的稳定性和更稳定的学习，适用于真实世界的机器人控制。

Mar, 2023

DSAC: 基于分布式的软演员 - 评论家算法用于风险敏感强化学习

DSAC 是一种新的强化学习算法，它通过利用积累奖励的分布信息来获得更好的性能。通过将 SAC 与基本分布式目标观点无缝集成， DSAC 考虑了行动和回报中的随机性，并在几个连续控制基准测试中超越了现有技术基线。除此之外，我们还探讨了三个具体的与风险相关的度量标准：百分位数，均值 - 方差和扭曲期望，通过分布建模实现了 RL 中的风险敏感。

Apr, 2020

软最大熵深度强化学习中的 Stochastic Actor-Critic 算法

本文提出一种基于最大熵强化学习框架的深度离策略演员 - 评论家算法，该算法通过离策略更新和稳定的随机演员 - 评论家公式结合，实现了在一系列连续控制基准任务上的最先进表现。

Jan, 2018

分布式软 actor-critic 算法：用于解决价值估计误差的离策略强化学习

该论文提出了一种分布式软演员 - 评论家算法 (DSAC)，通过学习状态 - 动作回报的分布函数来适应性地调整 Q 值函数的更新步长，进而缓解 Q 值过高导致的策略性能下降。通过将返回分布函数嵌入最大熵 RL 中，开发了一种分布式软政策迭代框架 (DSPI)，并提出了一个名为 DSAC 的深度离线演员 - 评论家算法的变体，以解决梯度爆炸和梯度消失等问题，并在 MuJoCo 连续控制任务套件上取得了最先进的性能。

Jan, 2020

重新审视离散化软 Actor-Critic 算法

本文研究了将 soft actor-critic (SAC) 从连续动作空间适应到离散动作空间的方法，并提出了熵惩罚和双平均 Q-learning 以解决 Q 值低估和性能不稳定问题，通过在 Atari 游戏和大型多人在线战术竞技游戏上的实验验证了所提出方法的有效性。

Sep, 2022

S$^2$AC：基于能量的 Stein Soft Actor Critic 强化学习

学习表达性随机策略而不是确定性策略已经被提出，以实现更好的稳定性、采样复杂度和鲁棒性。我们提出了 Stein Soft Actor-Critic (S^2AC)，这是一种能够高效学习表达性策略的最大熵强化学习算法，通过使用参数化的 Stein 变分梯度下降（SVGD）作为基础策略，并导出了该策略的熵的闭合表达式。实证结果表明，在多目标环境中，S^2AC 相较于 SQL 和 SAC 能够提供更优的最大熵目标解，并在 MuJoCo 基准测试中胜过 SAC 和 SQL。

May, 2024

DSAC-T: 具有三个改进的分布式软行动者 - 评论家算法

这篇论文介绍了对标准的 DSAC 算法进行三个重要修正，包括评论家梯度调整、双值分布学习和基于方差的目标回报剪辑，修改后的 RL 算法被称为 DSAC-T 或 DSAC-v2，在各种基准任务中的表现进行了系统评估，结果显示，在所有测试环境中，不需要任何任务特定的超参数调整，DSAC-T 超越了许多主流的无模型 RL 算法，包括 SAC、TD3、DDPG、TRPO 和 PPO，并且与标准版本相比，DSAC-T 确保了高度稳定的学习过程，并在不同的奖励尺度下具有相似的性能。

Oct, 2023

最大因果熵限制的强化学习

提出一种基于最大因果熵的方法来学习环境约束下的最优策略，该方法利用在约束下运作的代理的演示进行学习，证明了其在表格设置中的收敛性并提供了一个可扩展到复杂环境的近似值。通过评估奖励和约束违规数，评估学习策略的有效性，并基于其在其他代理中的可转移性评估学习成本函数。此方法已经在各种任务和环境中表现优于现有技术，能够处理具有随机动态和连续状态动作空间的问题。

May, 2023

Meta-SAC: 通过 Metagradient 自动调整软演员批评家的熵温度

本文提出一种新方法 Meta-SAC，基于 Soft Actor-Critic (SAC) 算法，使用元梯度及元目标来自动调整熵温度，以平衡任务原始奖励与策略熵，从而解决了探索利用困境的问题，并在 Mujoco 基准测试任务中达到了令人满意的性能。

Jul, 2020