Mar, 2023

具有双重正则化的马尔可夫决策过程: 强鲁棒性和正则化之间的等价性

TL;DR本研究致力于学习具有鲁棒特性的Markov决策过程。通过分析规则化的Markov决策过程,我们建立了奖励鲁棒Markov决策过程和规则化Markov决策过程之间的联系,并将该关系扩展到具有不确定性转移的Markov决策过程。进一步地,我们推广了规则化MDPs到双重规则化MDPs,并在表格和物理领域进行了数值验证。