Mar, 2024

可证明的对数概率策略梯度

TL;DR利用 log 密度梯度方法可以准确估计政策梯度,并且这种方法能够改善强化学习算法的样本复杂性,通过减少样本数提供了一种有希望的新方向。