Dec, 2023

具有全局收敛保证的内点约束强化学习

TL;DR在无限时间、约束的马尔科夫决策过程中,通过零阶内点方法实现约束满足,以最大化预期累积奖励,确保策略在学习过程中的可行性,并具有样本复杂度 O (ε^(-6))