Oct, 2021

约束马尔科夫决策过程的更快算法和更精细分析

TL;DR本论文提出了一种新的原始对偶方法来解决带限制的马尔可夫决策过程问题,通过熵正规化策略优化器、对偶变量正规化器和 Nesterov 加速梯度下降对偶优化器等创新方法,全局收敛至凸优化下的凸约束,显示了目前已有的原始对偶算法无法达到的最优复杂度 O (1/ε)。