Jun, 2023

有约束马尔可夫决策过程中拉格朗日方法的无撤销后悔界限

TL;DR本文提出了一种基于Lagrangian方法的新型模型双重算法OptAug-CMDP,针对标签化的有限路径CMDP,证明了该算法在探索CMDP的K个周期内同时获得了目标和约束违规的期望性能敏感性,且无需进行错误取消。