通过对抗内核逼近实现稳健强化学习

Jun, 2023

通过对抗内核逼近实现稳健强化学习

Robust Reinforcement Learning via Adversarial Kernel Approximation

Kaixin Wang, Uri Gadot, Navdeep Kumar, Kfir Levy, Shie Mannor

TL;DR通过对RMDPs中的敌对核进行特征化，我们提出了一种新颖的在线鲁棒RL方法，该方法近似敌对核并使用标准的（非鲁棒）RL算法来学习鲁棒策略。特别是，该方法可应用于任何基础RL算法之上，可以轻松扩展到高维领域。在经典控制任务，MinAtar和DeepMind Control Suite中的实验表明了我们方法的有效性和适用性。

Abstract

robust markov decision processes (RMDPs) provide a framework for sequential decision-making that is robust to perturbations on the transition kernel. However, robust reinforcement learning (RL) approaches in RMDP