Jan, 2024

离线 CMDPs 的对抗性训练的行动者评论家

TL;DR我们提出了一种名为 Safe Adversarial Trained Actor Critic (SATAC) 的算法,用于在数据覆盖有限的情况下,对离线强化学习(RL)中的一般函数近似进行训练。SATAC 作为一个两个玩家的 Stackelberg 游戏进行操作,其特点是一个精细的目标函数。由于演员(领导者玩家)优化策略以对抗两个敌对训练的价值评论者(从属玩家),他们专注于演员性能低于行为策略的情况。我们的框架提供了理论保证和强大的深度强化学习实现。理论上,我们证明了当演员使用无悔优化预测器时,SATAC 可以实现两个保证:(i)首次在离线 RL 设置中,我们建立了 SATAC 可以产生优于行为策略的策略,同时保持相同的安全水平,这对于设计离线 RL 算法至关重要;(ii)我们证明该算法在广泛的超参数范围内保证策略改进,表明其具有实际的鲁棒性。此外,我们提供了一个实用版本的 SATAC,并将其与现有的连续控制环境中的最先进的离线安全 RL 算法进行了比较。SATAC 在一系列任务中表现优于所有基准算法,从而验证了理论性能。