Feb, 2023
离线强化学习对抗模型
Adversarial Model for Offline Reinforcement Learning
Mohak Bhardwaj, Tengyang Xie, Byron Boots, Nan Jiang, Ching-An Cheng
TL;DR提出 Adversarial Model for Offline Reinforcement Learning (ARMOR) 框架,通过对抗训练 Markov 决策过程模型,能够在数据覆盖不足情况下优化任意参考策略的性能,不需要使用模型集成,并可在各种超参数选择下提高参考策略的性能。