Oct, 2022

长期视频预测的时间一致性视频 Transformer

TL;DR通过引入基于向量量化的潜在动态视频预测模型和 MaskGit 先验,我们提出了一种名为 TECO 的模型,它可以在训练和生成过程中有效地处理数百帧的长视频以实现长期时间一致性,不仅在简单的迷宫和大型 3D 世界中,而且在真实世界的复杂视频中也优于 SOTA 基准。