Oct, 2021

带熵正则化的约束马尔可夫决策过程的双重方法

TL;DR研究了采用软最大化参数化的熵正则化约束马尔可夫决策过程及其 Lagrange 对偶函数和约束违规等问题。并提出了加速对偶下降方法以实现全局收敛性。