Mar, 2023

具有双重正则化的马尔可夫决策过程:强鲁棒性和正则化之间的等价性

TL;DR本研究致力于学习具有鲁棒特性的 Markov 决策过程。通过分析规则化的 Markov 决策过程,我们建立了奖励鲁棒 Markov 决策过程和规则化 Markov 决策过程之间的联系,并将该关系扩展到具有不确定性转移的 Markov 决策过程。进一步地,我们推广了规则化 MDPs 到双重规则化 MDPs,并在表格和物理领域进行了数值验证。