BriefGPT.xyz
Ask
alpha
关键词
deterministic policy gradients
搜索结果 - 1
AAAI
预期策略梯度
论文提出了一种集成了随机策略梯度和确定性策略梯度的预期策略梯度,通过对动作的积分来估算梯度,证明了其可以降低梯度估算的方差,对于高斯探索,通过设置动作的海森矩阵的指数作为协方差比标准探索更优,在四个 MuJoCo 域中明显优于使用奥恩斯坦
→
PDF
7 years ago
Prev
Next