Apr, 2024

政策梯度方法的基本分析

TL;DR在本文中,我们对以往的优化方法进行系统研究,讨论了削影策略梯度、softmax 策略梯度、自然策略梯度等算法的全局和局部收敛性,提出了新的结果和分析技术。