May, 2022

基于正则化的鲁棒马尔可夫决策过程高效策略迭代

TL;DR本文通过探究 s-rectangular Lp 鲁棒 MDP 和策略正则化 MDP 的等价性,发现在 Optimal Bellman 算子中阈值策略在 top k 动作中起着重要作用,并引入了新的概念如优化和阈值。