May, 2023

探索实时循环学习的优缺点

TL;DR本文研究了将实时递归学习和策略梯度相结合的演员-评论员方法在DMLab、ProcGen和Atari-2600环境中的应用,结果表明,在DMLab记忆任务中,我们的系统相比于训练了10 B 帧的IMPALA和R2D2基线的系统,只需训练不到1.2 B个环境帧就能够达到很好的性能表现。