May, 2020
Softmax 策略梯度方法的全局收敛速度
On the Global Convergence Rates of Softmax Policy Gradient Methods
TL;DR研究了采用策略梯度法在表格设置下的优化问题,分析并证明了使用softmax参数化的策略梯度法具有O(1/t)的收敛速率,熵正则化策略梯度法可以以O(e^{-c * t})的线性收敛速度收敛到最优策略,提高了优化速度。通过非均匀L{}ojasiewicz度概念解释了该方法的有效性,并在理论上支持了现有的经验研究。