AAAISep, 2021

通过原始对偶方法实现有约束强化学习的零约束违规

TL;DR该研究提出了一种保守随机原始 - 对偶算法 (CSPDA),用于解决基于约束马尔可夫决策过程 (CMDP) 的强化学习问题,该算法能够在零约束违规的情况下实现 ε- 最优累积奖励,并提供比现有算法更有效率的复杂度。