s-矩形鲁棒马尔可夫决策过程的策略梯度算法

Jan, 2023

s-矩形鲁棒马尔可夫决策过程的策略梯度算法

Policy Gradient for s-Rectangular Robust Markov Decision Processes

Navdeep Kumar, Esther Derman, Matthieu Geist, Kfir Levy, Shie Mannor

TL;DR本文提出了一种新颖的稳健策略梯度方法 (RPG) 用于 s-矩形稳健马尔可夫决策过程(MDP)。我们首次导出了闭式的对抗性核，并证明它是名义核的一阶扰动。这使我们能够得到一个类似于在非稳健 MDP 中使用的 RPG 的算法，但具有稳健的 Q 值函数和一个附加的校正项。稳健的 Q 值和校正项都可以高效计算，因此我们方法的时间复杂度与非稳健 MDP 的时间复杂度相匹配，比现有的黑盒方法快得多。

Abstract

We present a novel robust policy gradient method (RPG) for s-rectangular robust Markov Decision Processes (MDPs). We are the first to derive the adversarial kernel in a closed form and demonstrate that it is a on