Jan, 2024

增强连续强化学习中的世界模型回放

TL;DR通过引入一种扩充缓冲区的方法来缓解记忆约束,将其与基于模型的强化学习算法结合使用,从而在持续学习中提高效果。我们在 Procgen 和 Atari RL 基准测试中评估了这种方法的有效性,并证明了在潜在世界模型的背景下,用于回放缓冲区的分布匹配扩充可以成功防止灾难性遗忘,并大大减少了计算开销。然而,我们也发现此类解决方案并非完全没有缺陷,还存在缺乏可塑性和无法学习新任务等失败模式,可能是持续学习系统的潜在限制。