Jan, 2023

s-矩形鲁棒马尔可夫决策过程的策略梯度算法

TL;DR本文提出了一种新颖的稳健策略梯度方法 (RPG) 用于 s-矩形稳健马尔可夫决策过程(MDP)。我们首次导出了闭式的对抗性核,并证明它是名义核的一阶扰动。这使我们能够得到一个类似于在非稳健 MDP 中使用的 RPG 的算法,但具有稳健的 Q 值函数和一个附加的校正项。稳健的 Q 值和校正项都可以高效计算,因此我们方法的时间复杂度与非稳健 MDP 的时间复杂度相匹配,比现有的黑盒方法快得多。