BriefGPT.xyz
Apr, 2024
政策梯度方法的基本分析
Elementary Analysis of Policy Gradient Methods
HTML
PDF
Jiacai Liu, Wenye Li, Ke Wei
TL;DR
在本文中,我们对以往的优化方法进行系统研究,讨论了削影策略梯度、softmax策略梯度、自然策略梯度等算法的全局和局部收敛性,提出了新的结果和分析技术。
Abstract
projected policy gradient
under the simplex parameterization, policy gradient and
natural policy gradient
under the softmax parameterization, are fundamental algorithms in
→