BriefGPT.xyz
Ask
alpha
关键词
actor critic with emphatic weightings (ace)
搜索结果 - 1
使用强调加权的离线策略梯度定理
本文提出了第一个适用于 off-policy learning 的 policy gradient 定理,并通过使用 emphatic weightings 导出了简化的梯度公式,并使用 Actor Critic with Emphatic
→
PDF
6 years ago
Prev
Next