BriefGPT.xyz
Ask
alpha
关键词
on-policy samples
搜索结果 - 1
可证明的对数概率策略梯度
利用 log 密度梯度方法可以准确估计政策梯度,并且这种方法能够改善强化学习算法的样本复杂性,通过减少样本数提供了一种有希望的新方向。
PDF
4 months ago
Prev
Next