ICMLJul, 2021

生成式视频变压器:物体能否成为语言的基本单位?

TL;DR本文介绍了一种利用 “Object-Centric” 思想的视频生成器 ——Object-Centric Video Transformer(OCVT)模型,该模型通过将场景分解为对象来学习多个相互作用对象的复杂空间 - 时间动态,相较于基于像素的模型,其显著提高了记忆效率,能够在单个 48GB GPU 上训练长度达 70 帧的视频,且在 CATER 任务上取得了最新的实验结果。