Aug, 2019

神经策略梯度方法:全局最优性和收敛速率

TL;DR本文介绍了使用神经网络参数化的演员评论家的政策梯度方法,证明了在超参数化范围内,神经自然策略梯度以亚线性速率收敛到全局最优策略,并且神经普通策略梯度以亚线性速率收敛到稳态点。同时证明了共享神经结构和随机初始化是全局最优解和收敛的关键。该分析为神经策略梯度方法的全局最优性和收敛性提供了第一个保证。