May, 2023

探索实时循环学习的优缺点

TL;DR本文研究了将实时递归学习和策略梯度相结合的演员 - 评论员方法在 DMLab、ProcGen 和 Atari-2600 环境中的应用,结果表明,在 DMLab 记忆任务中,我们的系统相比于训练了 10 B 帧的 IMPALA 和 R2D2 基线的系统,只需训练不到 1.2 B 个环境帧就能够达到很好的性能表现。