Jan, 2024
一种具有均匀PAC保证的限制MDP的策略梯度原始对偶算法
A Policy Gradient Primal-Dual Algorithm for Constrained MDPs with
Uniform PAC Guarantees
TL;DR我们介绍了一种具有均匀概率近似正确性保证的新型策略梯度原始-对偶算法,同时保证了收敛至最优策略、次线性遗憾和多项式样本复杂度的理论保证,并在一个简单的CMDP示例中进行实证展示,证明了算法收敛至最优策略,而现有算法则表现出振荡性能和约束违规。