Mar, 2024

掌握记忆任务的世界模型

TL;DR通过在模型基础强化学习代理的世界模型中集成一种新的状态空间模型,在解决涉及行动和结果之间存在较大时间间隔或需要回忆遥远观察来指导当前行动的任务方面提出了一种名为 R2I 的新方法,该集成旨在提高长期记忆和长期视野信用分配,系统演示了 R2I 不仅在具有挑战性的内存和信用分配强化学习任务(如 BSuite 和 POPGym)方面树立了新的最新技术,还在 Memory Maze 等复杂内存领域展示了超人类表现,同时在 Atari 和 DMC 等经典强化学习任务中表现出可比较的性能,显示出 R2I 方法的普适性,此外,我们还表明 R2I 比最新技术的模型基础强化学习方法 DreamerV3 更快,可以更快地收敛。