Jun, 2022
自然策略梯度原始 - 对偶方法在约束 MDPs 上的收敛性和样本复杂度
Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs
Dongsheng Ding, Kaiqing Zhang, Jiali Duan, Tamer Başar, Mihailo R. Jovanović
TL;DR研究如何在满足预期总效用的约束条件下最大化预期总回报,提出了一种新的自然策略梯度原始 - 对偶方法来解决 Constrained Markov 决策过程(constrained MDPs)的折扣无限时域下的最优控制问题,在自然策略梯度上升和投影次梯度下降的影响下更新原始变量和对偶变量。