基于对抗训练的离线强化学习中的演员 - 评论家算法
我们提出了一种名为 Safe Adversarial Trained Actor Critic (SATAC) 的算法,用于在数据覆盖有限的情况下,对离线强化学习(RL)中的一般函数近似进行训练。SATAC 作为一个两个玩家的 Stackelberg 游戏进行操作,其特点是一个精细的目标函数。由于演员(领导者玩家)优化策略以对抗两个敌对训练的价值评论者(从属玩家),他们专注于演员性能低于行为策略的情况。我们的框架提供了理论保证和强大的深度强化学习实现。理论上,我们证明了当演员使用无悔优化预测器时,SATAC 可以实现两个保证:(i)首次在离线 RL 设置中,我们建立了 SATAC 可以产生优于行为策略的策略,同时保持相同的安全水平,这对于设计离线 RL 算法至关重要;(ii)我们证明该算法在广泛的超参数范围内保证策略改进,表明其具有实际的鲁棒性。此外,我们提供了一个实用版本的 SATAC,并将其与现有的连续控制环境中的最先进的离线安全 RL 算法进行了比较。SATAC 在一系列任务中表现优于所有基准算法,从而验证了理论性能。
Jan, 2024
本研究提出使用敌对模型来促进探索及提高效率,从而解决各类探索困难且奖励很少的问题,发现使用 Adversarially Guided Actor-Critic 比当前的现有方法都更加有效。
Feb, 2021
提出了一种新的离线演员 - 评论家算法,结合了悲观主义原则,在演员策略的动作价值函数封闭的情况下,具有多个优点,并能够在计算上处理封闭的 Bellman 评估运算符。
Aug, 2021
基于强化学习的离策略算法 OBAC 通过对值进行比较,识别出性能表现优越的线下策略,并将其作为自适应约束条件,以保证更强的策略学习表现。实验结果表明,在样本效率和渐近性能方面,OBAC 超过了其他常见的无模型强化学习和先进的有模型强化学习方法,涵盖了 6 个任务套件共 53 个任务。
May, 2024
该研究论文提出了一个用于高风险应用中学习风险规避策略的模型 - Offline Risk-Averse Actor-Critic (O-RAAC),展示了在不同机器人控制任务中,该算法比风险中性方法具有更高的条件值 - at-Risk (CVaR),并且在自然分布转移的情况下,O-RAAC 学习到具有良好平均表现的策略。
Feb, 2021
本论文提出了一种新的强化学习算法 —— 乐观的 Actor-Critic 方法 (OAC),通过在状态动作值函数上近似上限和下限的置信区间,实现了在探索性上的乐观及方向性采样,从而提高了算法对连续控制任务的采样效率。
Oct, 2019
提出了一种名为 Uncertainty Weighted Actor-Critic(UWAC)的离线强化学习算法,采用基于 dropout 的不确定性估计方法来检测 out-of-distribution(OOD)状态 - 动作对并相应地减小其在训练目标中的贡献,实验结果表明 UWAC 算法在提高模型稳定性和稀疏演示数据集上的表现上显著优于现有离线 RL 算法。
May, 2021
最近的研究表明,在离线强化学习中使用有监督方法(不使用时序差分学习)既有益处又有局限性。本文提出了一种取长补短的方法,首先通过有监督学习来学习行为策略和评论家,然后再通过离线强化学习进行改进。具体而言,我们通过使用常被忽视的提供的离线轨迹中的下游信息,通过有监督的蒙特卡洛值误差预训练,提高了效率。我们发现在标准基准测试中,我们能够将考虑的离线算法的训练时间减少一半以上,并且出人意料地获得更大的稳定性。我们进一步强调具有一致的策略和值函数的重要性,提出了新颖的混合算法 TD3+BC+CQL 和 EDAC+BC,对行为策略和评论家进行正则化,更可靠地改进行为策略。代码可在此 URL 找到。
Jun, 2024
提出了一种称为适应性校准评论家 (ACC) 的方法,并将其应用于 Truncated Quantile Critics 中,实现了自适应调整参数,从而消除了低方差时间差分目标的偏差,并在 OpenAI gym 连续控制基准测试中取得了新的最佳成绩。
Nov, 2021
我们设计了一个决策感知的联合目标来训练演员和评论家,以解决演员的最优目标与评论家的最小化 TD 误差目标不匹配的问题,并提出了一个通用的 Actor-critic 算法来处理任何函数逼近,在一些简单的赌博机示例中,我们证明了提出的评论家目标的好处。最后,我们在简单的 RL 问题上通过实验证明了决策感知的 Actor-critic 框架的好处。
May, 2023