May, 2024

高效约束强化学习与普适参数化

TL;DR在受限制的马尔可夫决策问题(CMDP)中,我们开发了原始 - 对偶加速自然策略梯度(PD-ANPG)算法,它保证了 ε 全局最优性差距和 ε 约束违反,样本复杂度为 O (ε^-3),从而在 CMDP 的样本复杂度上取得了 O (ε^-1) 的进展。