Oct, 2023

STORM: 基于随机 Transformer 的高效强化学习世界模型

TL;DR近年来,基于模型的强化学习算法在视觉输入环境中展现出了显著的效果。本研究介绍了一种名为 STORM 的高效世界模型架构,它将 Transformer 的强大序列建模和生成能力与变分自编码器的随机性结合起来,取得了 Atari 100k 基准测试的均值人类表现为 126.7%的成绩,同时在使用单个 NVIDIA GeForce RTX 3090 显卡进行 1.85 小时的实时交互训练时仅需 4.3 小时,证明其相对于之前的方法具有更高的效率。