Feb, 2022

基于对抗训练的离线强化学习中的演员 - 评论家算法

TL;DR本文提出 Adversarially Trained Actor Critic (ATAC) 算法解决数据不足下的离线强化学习问题,通过相对悲观的方式,在两个玩家之间进行 Stackelberg 博弈,找到 “差策略” 并优化策略,该算法在复杂环境和大数据集上的实现得到理论上的保障,并在 D4RL 基准测试中表现优秀。