Jun, 2024

UniZero: 通用高效规划与可扩展潜在世界模型

TL;DRUniZero 是一种基于 Transformer 的新增方法,通过解耦潜在状态和历史信息,能够更好地捕捉长期依赖关系,提供了更加广泛和高效的潜在空间规划,相比 MuZero-style 算法在 Atari 100k 基准测试中表现更好,且在需要长期记忆的基准测试中显著优于之前的基线模型。