BriefGPT.xyz
Oct, 2024
稳健马尔可夫决策过程的策略梯度
Policy Gradient for Robust Markov Decision Processes
HTML
PDF
Qiuhao Wang, Shaohang Xu, Chin Pang Ho, Marek Petrik
TL;DR
本文研究了针对稳健马尔可夫决策过程(MDPs)的策略梯度方法,填补了模型歧义对学习稳健政策的挑战。提出了一种新颖的策略梯度方法——双循环稳健政策镜面下降(DRPMD),该方法通过适应性容忍度保证了全局最优政策的收敛。实验证明了DRPMD在各种稳健MDP设定下的稳健性和全局收敛性。
Abstract
We develop a generic
Policy Gradient
method with the global
Optimality
guarantee for
Robust Markov Decision Processes
(MDPs). While
→