Oct, 2021

两次正则化的MDPs及其鲁棒性与正则化之间的等价性

TL;DR该论文提出了一种新的方法来学习具有不确定性的鲁棒Markov决策过程,即基于正则化的鲁棒MDP算法,与传统的鲁棒优化方法相比,它能够有效地降低计算复杂度并提高可扩展性。