Jun, 2024

在令牌世界中学习玩Atari游戏

TL;DR基于模型的增强学习代理利用变换器已经显示出更好的样本效率,因为它们能够对扩展的上下文进行建模,从而得到更准确的世界模型。然而,对于复杂的推理和规划任务,这些方法主要依赖于连续表示,这使得对实际世界的离散属性,例如不可插值的不相交对象类的建模变得复杂。在这项工作中,我们引入了基于变换器学习的离散抽象表示(DART),一种利用离散表示对世界和学习行为进行建模的样本高效方法。我们通过包含变换器-解码器进行自回归世界建模,并通过注意到世界模型的离散表示中与任务相关的线索进行学习行为的变换器编码器。为了处理部分可观测性,我们将过去时刻的信息作为记忆令牌进行聚合。DART在Atari 100k样本效率基准测试中表现优于先前的最先进方法,具有0.790的中位人类标准化分数,并在26个游戏中击败了人类。我们在此https URL上发布我们的代码。