Jun, 2022

自然策略梯度原始-对偶方法在约束MDPs上的收敛性和样本复杂度

TL;DR研究如何在满足预期总效用的约束条件下最大化预期总回报,提出了一种新的自然策略梯度原始-对偶方法来解决Constrained Markov决策过程(constrained MDPs)的折扣无限时域下的最优控制问题,在自然策略梯度上升和投影次梯度下降的影响下更新原始变量和对偶变量。