Oct, 2021

基于动量的策略梯度算法的全局最优收敛性

TL;DR本文研究应用动量项的随机策略梯度方法的全局收敛性,并展示了在softmax和非退化Fisher策略参数化中增加动量项可以提高PG方法的全局最优采样复杂度。此外,作者提供了分析随机PG方法全局收敛速率的通用框架。