Jul, 2022

CMDP 离策略学习的近似最优原始对偶算法

TL;DR本研究针对离线数据的约束马尔可夫决策过程问题,引入了单策略集中度系数、提出了 DPDL 算法,并建立了样本复杂度下界,保证无约束违规。