BriefGPT.xyz
Ask
alpha
关键词
sequence-processing recurrent neural networks
搜索结果 - 1
探索实时循环学习的优缺点
本文研究了将实时递归学习和策略梯度相结合的演员 - 评论员方法在 DMLab、ProcGen 和 Atari-2600 环境中的应用,结果表明,在 DMLab 记忆任务中,我们的系统相比于训练了 10 B 帧的 IMPALA 和 R2D2
→
PDF
a year ago
Prev
Next