Jun, 2023

有约束马尔可夫决策过程中拉格朗日方法的无撤销后悔界限

TL;DR本文提出了一种基于 Lagrangian 方法的新型模型双重算法 OptAug-CMDP,针对标签化的有限路径 CMDP,证明了该算法在探索 CMDP 的 K 个周期内同时获得了目标和约束违规的期望性能敏感性,且无需进行错误取消。