Feb, 2023

离线强化学习对抗模型

TL;DR提出 Adversarial Model for Offline Reinforcement Learning (ARMOR) 框架,通过对抗训练 Markov 决策过程模型,能够在数据覆盖不足情况下优化任意参考策略的性能,不需要使用模型集成,并可在各种超参数选择下提高参考策略的性能。