离线 CMDPs 的对抗性训练的行动者评论家

Jan, 2024

离线 CMDPs 的对抗性训练的行动者评论家

Adversarially Trained Actor Critic for offline CMDPs

Honghao Wei, Xiyue Peng, Xin Liu, Arnob Ghosh

TL;DR我们提出了一种名为 Safe Adversarial Trained Actor Critic (SATAC) 的算法，用于在数据覆盖有限的情况下，对离线强化学习（RL）中的一般函数近似进行训练。SATAC 作为一个两个玩家的 Stackelberg 游戏进行操作，其特点是一个精细的目标函数。由于演员（领导者玩家）优化策略以对抗两个敌对训练的价值评论者（从属玩家），他们专注于演员性能低于行为策略的情况。我们的框架提供了理论保证和强大的深度强化学习实现。理论上，我们证明了当演员使用无悔优化预测器时，SATAC 可以实现两个保证：（i）首次在离线 RL 设置中，我们建立了 SATAC 可以产生优于行为策略的策略，同时保持相同的安全水平，这对于设计离线 RL 算法至关重要；（ii）我们证明该算法在广泛的超参数范围内保证策略改进，表明其具有实际的鲁棒性。此外，我们提供了一个实用版本的 SATAC，并将其与现有的连续控制环境中的最先进的离线安全 RL 算法进行了比较。SATAC 在一系列任务中表现优于所有基准算法，从而验证了理论性能。

Abstract

We propose a safe adversarial trained actor critic (SATAC) algorithm for offline reinforcement learning (RL) with general function approximation in the presence of →

safe adversarial trained actor critic offline reinforcement learning limited data coverage stackelberg game deep-rl implementation

发现论文，激发创造

基于对抗训练的离线强化学习中的演员 - 评论家算法

本文提出 Adversarially Trained Actor Critic (ATAC) 算法解决数据不足下的离线强化学习问题，通过相对悲观的方式，在两个玩家之间进行 Stackelberg 博弈，找到 “差策略” 并优化策略，该算法在复杂环境和大数据集上的实现得到理论上的保障，并在 D4RL 基准测试中表现优秀。

Feb, 2022

SAAC: 基于扮演者 - 评论者对抗博弈的安全强化学习

本文提出了一种利用最大熵 RL 和安全性对抗指导的 SAAC 框架，能够有效解决在现实世界系统中，风险或安全性是一个约束的问题，同时它也能够满足不同的安全性标准。

Apr, 2022

软性演员 - 评论家算法及其应用

本文介绍了一种基于最大熵强化学习框架的离线演员 - 评论家算法 Soft Actor-Critic，其中演员旨在同时最大化期望回报和熵，以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进，如约束模型等，提高了模型的稳定性和训练速度，并在基准任务以及四足机器人的运动和灵巧手的机器人操作等现实世界挑战任务中取得了最先进的性能，在样本效率和渐近性能方面优于以往的在线和离线算法。

Dec, 2018

对抗引导的演员 - 评论家算法

本研究提出使用敌对模型来促进探索及提高效率，从而解决各类探索困难且奖励很少的问题，发现使用 Adversarially Guided Actor-Critic 比当前的现有方法都更加有效。

Feb, 2021

风险厌恶的离线强化学习

该研究论文提出了一个用于高风险应用中学习风险规避策略的模型 - Offline Risk-Averse Actor-Critic (O-RAAC)，展示了在不同机器人控制任务中，该算法比风险中性方法具有更高的条件值 - at-Risk (CVaR)，并且在自然分布转移的情况下，O-RAAC 学习到具有良好平均表现的策略。

Feb, 2021

脱机增强型演员 - 评论者：在深度离线策略强化学习中自适应混合优化历史行为

基于强化学习的离策略算法 OBAC 通过对值进行比较，识别出性能表现优越的线下策略，并将其作为自适应约束条件，以保证更强的策略学习表现。实验结果表明，在样本效率和渐近性能方面，OBAC 超过了其他常见的无模型强化学习和先进的有模型强化学习方法，涵盖了 6 个任务套件共 53 个任务。

May, 2024

DSAC-T: 具有三个改进的分布式软行动者 - 评论家算法

这篇论文介绍了对标准的 DSAC 算法进行三个重要修正，包括评论家梯度调整、双值分布学习和基于方差的目标回报剪辑，修改后的 RL 算法被称为 DSAC-T 或 DSAC-v2，在各种基准任务中的表现进行了系统评估，结果显示，在所有测试环境中，不需要任何任务特定的超参数调整，DSAC-T 超越了许多主流的无模型 RL 算法，包括 SAC、TD3、DDPG、TRPO 和 PPO，并且与标准版本相比，DSAC-T 确保了高度稳定的学习过程，并在不同的奖励尺度下具有相似的性能。

Oct, 2023

具备函数逼近和理论保证的决策感知演员 - 评论家算法

我们设计了一个决策感知的联合目标来训练演员和评论家，以解决演员的最优目标与评论家的最小化 TD 误差目标不匹配的问题，并提出了一个通用的 Actor-critic 算法来处理任何函数逼近，在一些简单的赌博机示例中，我们证明了提出的评论家目标的好处。最后，我们在简单的 RL 问题上通过实验证明了决策感知的 Actor-critic 框架的好处。

May, 2023

SARC：软性演员回顾评论家

本文提出了软演员回溯评论家（SARC）算法，通过增加回溯损失项来改进 SAC 的评论家学习，从而提高政策梯度估计和实现更好的策略，在基准环境中展示了 SARC 对 SAC 的持续改进表现。

Jun, 2023

基于元批评学习的离线策略演员 - 评论家方法

本文介绍了一种使用 Meta-critic 方法的 Actor-Critic 强化学习算法，可以显著加速学习过程并构建具有高效采样的离线学习框架，通过实验证明了 Meta-critic 方法与离线学习 Off-PAC 算法（包括 DDPG、TD3 和 SAC）相结合，在连续控制环境中取得了显著的性能提升。

Mar, 2020