Jul, 2021

一种针对策略梯度的测度导数的实证分析

TL;DR本文探讨了基于测度值导数的随机梯度估计器及其在 actor-critic 策略梯度设置中的应用,结果显示它在低维和高维动作空间中能够达到与基于似然比或重参数化技巧的方法相当的性能。