Oct, 2024

稳健马尔可夫决策过程的策略梯度

TL;DR本文研究了针对稳健马尔可夫决策过程(MDPs)的策略梯度方法,填补了模型歧义对学习稳健政策的挑战。提出了一种新颖的策略梯度方法——双循环稳健政策镜面下降(DRPMD),该方法通过适应性容忍度保证了全局最优政策的收敛。实验证明了DRPMD在各种稳健MDP设定下的稳健性和全局收敛性。