Jul, 2020

自然策略梯度方法在熵正则化下的快速全局收敛

TL;DR为了证明策略优化算法的收敛性,本篇论文开发出了一种新的方法,该方法使用非统计方法提供了 $ extit {非渐进}$ 收敛保证,并专注于受 softmax 参数化限制的比例调节的策略梯度算法,重点是折扣的马尔可夫决策过程。实验证明,该算法在逼近正则化 MDP 的最优价值函数时,收敛呈线性或甚至二次收敛速度,考虑到算法的稳定性,收敛结果适应了广泛的学习速率,并阐明了熵正则化在实现快速收敛方面的作用。