Jul, 2020
自然策略梯度方法在熵正则化下的快速全局收敛
Fast Global Convergence of Natural Policy Gradient Methods with Entropy
Regularization
TL;DR为了证明策略优化算法的收敛性,本篇论文开发出了一种新的方法,该方法使用非统计方法提供了$ extit{非渐进}$收敛保证,并专注于受softmax参数化限制的比例调节的策略梯度算法, 重点是折扣的马尔可夫决策过程。实验证明,该算法在逼近正则化MDP的最优价值函数时,收敛呈线性或甚至二次收敛速度,考虑到算法的稳定性,收敛结果适应了广泛的学习速率,并阐明了熵正则化在实现快速收敛方面的作用。