BriefGPT.xyz
Ask
alpha
关键词
multi-step learning
搜索结果 - 2
DoMo-AC: 双重多步骤离线 Actor-Critic 算法
介绍了一种新方法 doubly multi-step off-policy VI (DoMo-VI) 和其实例 doubly multi-step off-policy actor-critic (DoMo-AC),通过结合 policy
→
PDF
a year ago
无重要性采样比率的多步非策略学习
本文提出了一种基于时序差分学习更新的无需使用重要性采样比率来学习无政策的多步学习的算法。通过变化 TD 更新中的自举量来消除重要性采样比率,该算法使用了两个时间尺度的梯度 TD 更新以实现稳定性,而且该算法的表现优于现有算法。
PDF
7 years ago
Prev
Next