Jul, 2021
一种针对策略梯度的测度导数的实证分析
An Empirical Analysis of Measure-Valued Derivatives for Policy Gradients
João Carvalho, Davide Tateo, Fabio Muratore, Jan Peters
TL;DR本文探讨了基于测度值导数的随机梯度估计器及其在 actor-critic 策略梯度设置中的应用,结果显示它在低维和高维动作空间中能够达到与基于似然比或重参数化技巧的方法相当的性能。