对抗引导的 演员 - 评论家算法
本文提出 Adversarially Trained Actor Critic (ATAC) 算法解决数据不足下的离线强化学习问题,通过相对悲观的方式,在两个玩家之间进行 Stackelberg 博弈,找到 “差策略” 并优化策略,该算法在复杂环境和大数据集上的实现得到理论上的保障,并在 D4RL 基准测试中表现优秀。
Feb, 2022
我们设计了一个决策感知的联合目标来训练演员和评论家,以解决演员的最优目标与评论家的最小化 TD 误差目标不匹配的问题,并提出了一个通用的 Actor-critic 算法来处理任何函数逼近,在一些简单的赌博机示例中,我们证明了提出的评论家目标的好处。最后,我们在简单的 RL 问题上通过实验证明了决策感知的 Actor-critic 框架的好处。
May, 2023
本研究提出了一种新的演员 - 评论家方法,即 GAC,它首先学习本地最大化评论家的指南演员角色,然后通过监督学习来更新策略参数。实验证明,该方法是连续控制的一种有前途的增强学习方法。
May, 2017
本论文提出了一种新的强化学习算法 —— 乐观的 Actor-Critic 方法 (OAC),通过在状态动作值函数上近似上限和下限的置信区间,实现了在探索性上的乐观及方向性采样,从而提高了算法对连续控制任务的采样效率。
Oct, 2019
本文提出了一种利用最大熵 RL 和安全性对抗指导的 SAAC 框架,能够有效解决在现实世界系统中,风险或安全性是一个约束的问题,同时它也能够满足不同的安全性标准。
Apr, 2022
使用新算法 “Discriminator-Actor-Critic”,提出解决基于 Adversarial Imitation Learning 框架的两个问题:隐式偏差和与环境产生大量交互所需的复杂性。该算法使用离线策略强化学习来降低策略 - 环境交互采样复杂度,并且由于我们的奖励函数是设计为无偏差的,因此可以在许多问题上应用而不进行任何任务特定的调整。
Sep, 2018
我们提出了一种名为 Safe Adversarial Trained Actor Critic (SATAC) 的算法,用于在数据覆盖有限的情况下,对离线强化学习(RL)中的一般函数近似进行训练。SATAC 作为一个两个玩家的 Stackelberg 游戏进行操作,其特点是一个精细的目标函数。由于演员(领导者玩家)优化策略以对抗两个敌对训练的价值评论者(从属玩家),他们专注于演员性能低于行为策略的情况。我们的框架提供了理论保证和强大的深度强化学习实现。理论上,我们证明了当演员使用无悔优化预测器时,SATAC 可以实现两个保证:(i)首次在离线 RL 设置中,我们建立了 SATAC 可以产生优于行为策略的策略,同时保持相同的安全水平,这对于设计离线 RL 算法至关重要;(ii)我们证明该算法在广泛的超参数范围内保证策略改进,表明其具有实际的鲁棒性。此外,我们提供了一个实用版本的 SATAC,并将其与现有的连续控制环境中的最先进的离线安全 RL 算法进行了比较。SATAC 在一系列任务中表现优于所有基准算法,从而验证了理论性能。
Jan, 2024
通过在策略和价值中分别应用改进算子,本研究提出了一种对演员 - 评论家(AC)框架的通用扩展,命名为 Value-Improved AC (VI-AC),并设计了 VI-TD3 和 VI-DDPG 两个实际算法,在 Mujoco 基准测试中发现在所有环境中它们都能改进现有基准算法的性能或与其持平。
Jun, 2024
本文提出了一种新的 actor-critic 算法,叫做 Dual-AC,并通过多步引导,路径正则化和随机对偶上升算法有效地解决了极小极大优化问题,取得了几项基准测试的最佳表现。
Dec, 2017
本研究提出了一种新的 Actor-Critic 算法变体,使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差,不论策略评估技术的选择,我们都能提供 Actor-Critic 算法的收敛速度,特别是当值函数采用线性函数近似且为连续状态和动作空间时,这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。
Oct, 2019