Dec, 2023

扩散模型生成逼真的视频

TL;DR通过扩散建模,我们提出了一种基于转换器的 W.A.L.T 方法,用于逼真视频生成。我们采用了两个关键设计决策:一是使用因果编码器在统一的潜在空间中联合压缩图像和视频,实现跨模态的训练和生成;二是为了记忆和训练效率,我们使用了一个针对联合空间和时空生成建模的窗口注意力架构。这些设计决策使我们能够在已知的视频 (UCF-101 和 Kinetics-600) 和图像 (ImageNet) 生成基准上达到最先进的性能,而不使用分类器引导。最后,我们还训练了三个模型的串联,用于文本到视频生成任务,包括基本的潜在视频扩散模型和两个视频超分辨率扩散模型,以每秒 8 帧生成 512 x 896 分辨率的视频。