Feb, 2024

使用并行观测预测改进基于标记的世界模型

TL;DR基于语言符号序列的变换器,提出了基于令牌的世界模型(TBWM)。通过引入并行观察预测机制(POP)解决了生成观察的瓶颈问题。将POP应用于TBWM代理REM(保持环境模型),在不到12小时的训练时间内,在Atari 100K基准测试的12个游戏中达到超人的表现。