基于对抗训练的离线强化学习中的演员 - 评论家算法

Feb, 2022

基于对抗训练的离线强化学习中的演员 - 评论家算法

Adversarially Trained Actor Critic for Offline Reinforcement Learning

Ching-An Cheng, Tengyang Xie, Nan Jiang, Alekh Agarwal

TL;DR本文提出 Adversarially Trained Actor Critic (ATAC) 算法解决数据不足下的离线强化学习问题，通过相对悲观的方式，在两个玩家之间进行 Stackelberg 博弈，找到 “差策略” 并优化策略，该算法在复杂环境和大数据集上的实现得到理论上的保障，并在 D4RL 基准测试中表现优秀。

Abstract

We propose adversarially trained actor critic (ATAC), a new model-free algorithm for offline reinforcement learning (RL) under insufficient data coverage, based on the concept of →

offline reinforcement learning relative pessimism adversarially trained actor critic two-player stackelberg game d4rl benchmark

发现论文，激发创造

离线 CMDPs 的对抗性训练的行动者评论家

我们提出了一种名为 Safe Adversarial Trained Actor Critic (SATAC) 的算法，用于在数据覆盖有限的情况下，对离线强化学习（RL）中的一般函数近似进行训练。SATAC 作为一个两个玩家的 Stackelberg 游戏进行操作，其特点是一个精细的目标函数。由于演员（领导者玩家）优化策略以对抗两个敌对训练的价值评论者（从属玩家），他们专注于演员性能低于行为策略的情况。我们的框架提供了理论保证和强大的深度强化学习实现。理论上，我们证明了当演员使用无悔优化预测器时，SATAC 可以实现两个保证：（i）首次在离线 RL 设置中，我们建立了 SATAC 可以产生优于行为策略的策略，同时保持相同的安全水平，这对于设计离线 RL 算法至关重要；（ii）我们证明该算法在广泛的超参数范围内保证策略改进，表明其具有实际的鲁棒性。此外，我们提供了一个实用版本的 SATAC，并将其与现有的连续控制环境中的最先进的离线安全 RL 算法进行了比较。SATAC 在一系列任务中表现优于所有基准算法，从而验证了理论性能。

Jan, 2024

对抗引导的演员 - 评论家算法

本研究提出使用敌对模型来促进探索及提高效率，从而解决各类探索困难且奖励很少的问题，发现使用 Adversarially Guided Actor-Critic 比当前的现有方法都更加有效。

Feb, 2021

Actor-Critic 方法在离线强化学习中的可证实益处

提出了一种新的离线演员 - 评论家算法，结合了悲观主义原则，在演员策略的动作价值函数封闭的情况下，具有多个优点，并能够在计算上处理封闭的 Bellman 评估运算符。

Aug, 2021

脱机增强型演员 - 评论者：在深度离线策略强化学习中自适应混合优化历史行为

基于强化学习的离策略算法 OBAC 通过对值进行比较，识别出性能表现优越的线下策略，并将其作为自适应约束条件，以保证更强的策略学习表现。实验结果表明，在样本效率和渐近性能方面，OBAC 超过了其他常见的无模型强化学习和先进的有模型强化学习方法，涵盖了 6 个任务套件共 53 个任务。

May, 2024

风险厌恶的离线强化学习

该研究论文提出了一个用于高风险应用中学习风险规避策略的模型 - Offline Risk-Averse Actor-Critic (O-RAAC)，展示了在不同机器人控制任务中，该算法比风险中性方法具有更高的条件值 - at-Risk (CVaR)，并且在自然分布转移的情况下，O-RAAC 学习到具有良好平均表现的策略。

Feb, 2021

乐观演员 - 评论家算法实现更好的探索

本论文提出了一种新的强化学习算法 —— 乐观的 Actor-Critic 方法 (OAC)，通过在状态动作值函数上近似上限和下限的置信区间，实现了在探索性上的乐观及方向性采样，从而提高了算法对连续控制任务的采样效率。

Oct, 2019

离线强化学习的不确定性加权演员 - 评论家算法

提出了一种名为 Uncertainty Weighted Actor-Critic（UWAC）的离线强化学习算法，采用基于 dropout 的不确定性估计方法来检测 out-of-distribution（OOD）状态 - 动作对并相应地减小其在训练目标中的贡献，实验结果表明 UWAC 算法在提高模型稳定性和稀疏演示数据集上的表现上显著优于现有离线 RL 算法。

May, 2021

高效离线强化学习：批评者至关重要

最近的研究表明，在离线强化学习中使用有监督方法（不使用时序差分学习）既有益处又有局限性。本文提出了一种取长补短的方法，首先通过有监督学习来学习行为策略和评论家，然后再通过离线强化学习进行改进。具体而言，我们通过使用常被忽视的提供的离线轨迹中的下游信息，通过有监督的蒙特卡洛值误差预训练，提高了效率。我们发现在标准基准测试中，我们能够将考虑的离线算法的训练时间减少一半以上，并且出人意料地获得更大的稳定性。我们进一步强调具有一致的策略和值函数的重要性，提出了新颖的混合算法 TD3+BC+CQL 和 EDAC+BC，对行为策略和评论家进行正则化，更可靠地改进行为策略。代码可在此 URL 找到。

Jun, 2024

深度强化学习的自适应校准评论家评估

提出了一种称为适应性校准评论家 (ACC) 的方法，并将其应用于 Truncated Quantile Critics 中，实现了自适应调整参数，从而消除了低方差时间差分目标的偏差，并在 OpenAI gym 连续控制基准测试中取得了新的最佳成绩。

Nov, 2021

具备函数逼近和理论保证的决策感知演员 - 评论家算法

我们设计了一个决策感知的联合目标来训练演员和评论家，以解决演员的最优目标与评论家的最小化 TD 误差目标不匹配的问题，并提出了一个通用的 Actor-critic 算法来处理任何函数逼近，在一些简单的赌博机示例中，我们证明了提出的评论家目标的好处。最后，我们在简单的 RL 问题上通过实验证明了决策感知的 Actor-critic 框架的好处。

May, 2023