May, 2021

自然策略梯度算法的线性收敛性

TL;DR本文研究了应用于马尔可夫决策过程中的自然策略梯度算法,在此基础上提出具有自适应步长的改进方法,并通过实验比较不同变种的策略梯度方法。