Oct, 2021

两次正则化的 MDPs 及其鲁棒性与正则化之间的等价性

TL;DR该论文提出了一种新的方法来学习具有不确定性的鲁棒 Markov 决策过程,即基于正则化的鲁棒 MDP 算法,与传统的鲁棒优化方法相比,它能够有效地降低计算复杂度并提高可扩展性。