Jun, 2023

通过对抗内核逼近实现稳健强化学习

TL;DR通过对RMDPs中的敌对核进行特征化,我们提出了一种新颖的在线鲁棒RL方法,该方法近似敌对核并使用标准的(非鲁棒)RL算法来学习鲁棒策略。特别是,该方法可应用于任何基础RL算法之上,可以轻松扩展到高维领域。在经典控制任务,MinAtar和DeepMind Control Suite中的实验表明了我们方法的有效性和适用性。