Mar, 2023
具有双重正则化的马尔可夫决策过程:强鲁棒性和正则化之间的等价性
Twice Regularized Markov Decision Processes: The Equivalence between Robustness and Regularization
Esther Derman, Yevgeniy Men, Matthieu Geist, Shie Mannor
TL;DR本研究致力于学习具有鲁棒特性的 Markov 决策过程。通过分析规则化的 Markov 决策过程,我们建立了奖励鲁棒 Markov 决策过程和规则化 Markov 决策过程之间的联系,并将该关系扩展到具有不确定性转移的 Markov 决策过程。进一步地,我们推广了规则化 MDPs 到双重规则化 MDPs,并在表格和物理领域进行了数值验证。