May, 2022

基于正则化的鲁棒马尔可夫决策过程高效策略迭代

TL;DR本文通过探究s-rectangular Lp鲁棒MDP和策略正则化MDP的等价性,发现在Optimal Bellman算子中阈值策略在top k动作中起着重要作用,并引入了新的概念如优化和阈值。