ICLRSep, 2022

Transformer 是高效样本的世界模型

TL;DRIRIS 是一个深度强化学习代理,学习于由离散自动编码器和自回归 Transformer 组成的世界模型中,仅用两小时的时间即可在 Atari 100k 基准测试中实现 1.046 的平均人类标准化得分,在 26 个游戏中有 10 个游戏超过了人类的表现,是一种有效的世界模型学习方法。