Sep, 2022

鲁棒马尔科夫决策过程的一阶策略优化

TL;DR研究如何解决具有不确定转移内核的折现,有限状态,有限行动空间 MDP 的强鲁棒性问题,旨在寻找一个抵抗传递不确定性的最佳策略。与标准 MDP 规划相比,本文提出了一个名为 RPMD 的策略型一阶方法,并对于两种递增步长的情形,建立了寻找 ε- 最优策略的 O (log (1/ε)) 和 O (1/ε) 迭代复杂度。本文还提出了一种名为 SRPMD 的随机变量。