Jun, 2023

通过对抗内核逼近实现稳健强化学习

TL;DR通过对 RMDPs 中的敌对核进行特征化,我们提出了一种新颖的在线鲁棒 RL 方法,该方法近似敌对核并使用标准的(非鲁棒)RL 算法来学习鲁棒策略。特别是,该方法可应用于任何基础 RL 算法之上,可以轻松扩展到高维领域。在经典控制任务,MinAtar 和 DeepMind Control Suite 中的实验表明了我们方法的有效性和适用性。