自动温度调节的 Soft Actor-Critic 算法正则化

May, 2023

自动温度调节的 Soft Actor-Critic 算法正则化

Regularization of Soft Actor-Critic Algorithms with Automatic Temperature Adjustment

Ben You

TL;DR本文通过自动温度调整来规范化 Soft Actor-Critic（SAC）算法，重构政策评估、政策改进和温度调整的理论，以更明确的方式优化原始算法。

Abstract

This work presents a comprehensive analysis to regularize the Soft Actor-Critic (SAC) algorithm with automatic temperature adjustment. The the policy evaluation, the →

soft actor-critic regularization policy evaluation policy improvement temperature adjustment

发现论文，激发创造

Meta-SAC: 通过 Metagradient 自动调整软演员批评家的熵温度

本文提出一种新方法 Meta-SAC，基于 Soft Actor-Critic (SAC) 算法，使用元梯度及元目标来自动调整熵温度，以平衡任务原始奖励与策略熵，从而解决了探索利用困境的问题，并在 Mujoco 基准测试任务中达到了令人满意的性能。

Jul, 2020

软性演员 - 评论家算法及其应用

本文介绍了一种基于最大熵强化学习框架的离线演员 - 评论家算法 Soft Actor-Critic，其中演员旨在同时最大化期望回报和熵，以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进，如约束模型等，提高了模型的稳定性和训练速度，并在基准任务以及四足机器人的运动和灵巧手的机器人操作等现实世界挑战任务中取得了最先进的性能，在样本效率和渐近性能方面优于以往的在线和离线算法。

Dec, 2018

利用抑制网络的软 AC 框架加速重训练

本文提出了一种受神经科学研究启发的新方法，使用抑制性网络，以允许分离和自适应状态值评估，以及不同的自动熵调整，最终我们的方法允许控制抑制来处理利用较少风险获取的行为和探索新行为之间的冲突，以克服更具挑战性的任务，并通过在 OpenAI Gym 环境中进行实验验证。

Feb, 2022

SARC：软性演员回顾评论家

本文提出了软演员回溯评论家（SARC）算法，通过增加回溯损失项来改进 SAC 的评论家学习，从而提高政策梯度估计和实现更好的策略，在基准环境中展示了 SARC 对 SAC 的持续改进表现。

Jun, 2023

DSAC-C: 基于约束的最大熵算法用于鲁棒离散软演员评论家

我们提出了一种新颖的 Soft Actor-Critic（SAC）算法扩展。基于最大熵原理，我们认为通过从替代性评论策略中得出的附加统计约束，可以进一步改进离散 SAC 算法。此外，我们的研究结果表明，这些约束对于潜在领域转移提供了额外的稳健性，这对于在现实世界中安全部署强化学习代理至关重要。我们提供了理论分析并展示了对 Atari 2600 游戏的分布内和分布外低数据范例的实证结果。

Oct, 2023

一个自调节的演员 - 评论算法

本文介绍了一种使用 metagradients 自动调整强化学习中超参数的算法 (Self-Tuning Actor-Critic)，此算法能够增加自主任务的数目并使用一个新颖的 leaky V-trace operator 来提高脱机学习的性能。在实验中，使用此算法进行了强化学习实验来证明算法的有效性。

Feb, 2020

使用规范化流策略改进软演员 - 评论家算法的探索能力

该研究提出了一种基于 Soft Actor Critic 算法的正态流策略分布模型，增加了模型的表达能力以提高稳定性和适应稀疏奖励环境下的探索能力。

Jun, 2019

具有真正不等约束的软演员 - 评论算法

本篇论文在软性演员批评的强化学习中加入松弛变量，以适当处理不等式约束，最大化策略熵，从而实现了更高的稳定性和更稳定的学习，适用于真实世界的机器人控制。

Mar, 2023

TD 正则化的 Actor-Critic 方法

本文介绍了一种名为 TD 正则化 actor-critic 方法的算法，它可以通过对演员学习目标进行正则化来改善算法的稳定性，并取得更好的性能表现。

Dec, 2018

离线 CMDPs 的对抗性训练的行动者评论家

我们提出了一种名为 Safe Adversarial Trained Actor Critic (SATAC) 的算法，用于在数据覆盖有限的情况下，对离线强化学习（RL）中的一般函数近似进行训练。SATAC 作为一个两个玩家的 Stackelberg 游戏进行操作，其特点是一个精细的目标函数。由于演员（领导者玩家）优化策略以对抗两个敌对训练的价值评论者（从属玩家），他们专注于演员性能低于行为策略的情况。我们的框架提供了理论保证和强大的深度强化学习实现。理论上，我们证明了当演员使用无悔优化预测器时，SATAC 可以实现两个保证：（i）首次在离线 RL 设置中，我们建立了 SATAC 可以产生优于行为策略的策略，同时保持相同的安全水平，这对于设计离线 RL 算法至关重要；（ii）我们证明该算法在广泛的超参数范围内保证策略改进，表明其具有实际的鲁棒性。此外，我们提供了一个实用版本的 SATAC，并将其与现有的连续控制环境中的最先进的离线安全 RL 算法进行了比较。SATAC 在一系列任务中表现优于所有基准算法，从而验证了理论性能。

Jan, 2024