BriefGPT.xyz
Ask
alpha
关键词
gaussian policies
搜索结果 - 1
AAAI
强化学习的预期策略梯度
提出了期望策略梯度(EPG)方法,将随机策略梯度(SPG)和确定性策略梯度(DPG)方法统一起来,用于连续或离散动作空间的强化学习中,实验证明其在多项控制任务中胜过现有方法。
PDF
6 years ago
Prev
Next