ICLROct, 2022

SlotFormer: 使用以物体为中心的模型进行无监督视觉动态模拟

TL;DR本文介绍了一种基于 SlotFormer 的 Transformer 自回归模型,利用学习到的目标中心表示来模拟物体间的关系,成功地应用于视频预测和 VQA 等多个领域,并表明它作为模型为基础的规划世界模型的能力与针对该任务专门设计的方法相媲美。