BriefGPT.xyz
Aug, 2024
受限马尔可夫决策过程中的一般参数化策略的最后迭代收敛性
Last-Iterate Convergence of General Parameterized Policies in Constrained MDPs
HTML
PDF
Washim Uddin Mondal, Vaneet Aggarwal
TL;DR
本研究旨在解决学习受限马尔可夫决策过程(CMDP)中的一般参数化问题,并提出了一种基于原始-对偶的正则化加速自然策略梯度(PDR-ANPG)算法。该算法在样本复杂度方面显著提升了当前CMDP的一般参数化策略的最后迭代保障,展示了具有潜在影响的高效收敛性。
Abstract
We consider the problem of learning a
Constrained Markov Decision Process
(CMDP) via general parameterization. Our proposed
Primal-Dual
based Regularized Accelerated Natural Policy Gradient (PDR-ANPG) algorithm u
→