潜在视频变换器

Jun, 2020

Latent Video Transformer

Ruslan Rakhimov, Denis Volkhonskiy, Alexey Artemov, Denis Zorin, Evgeny Burnaev

TL;DR本文提出了一种使用潜在空间进行视频生成的方法，采用自回归技术预测未来帧的潜在表示，经实验证明其相较于以前的方法在减少计算资源需求的同时，生成质量也得到了保证。

Abstract

The video generation task can be formulated as a prediction of future video frames given some past frames. Recent generative models for videos face the problem of high computational requirements. Some models requ

video generation generative models latent space autoregression computational efficiency

发现论文，激发创造

基于变换的大规模数据对抗性视频预测

本文通过对辩别器分解的系统实证研究，提出了一种结构，使得其收敛速度和性能都优于之前的方法，并分析了生成器中的循环单元，提出了一种新的循环单元，可以根据预测的动态特征转换其过去的隐藏状态，包括处理去除、场景改变等复杂行为，最终的模型在大规模的 Kinetics-600 数据集上，获得了卓越的性能。

Mar, 2020

基于转换的视频序列模型

本文提出了一种基于无监督方法的视频帧预测技术，相比直接预测未来帧中每个像素点，本文预测未来帧的变换过程，同时提出了一种新的评估协议，该方法在 UCF-101 数据集上进行了验证，在参数和计算成本上更加高效。

Jan, 2017

扩散模型生成逼真的视频

通过扩散建模，我们提出了一种基于转换器的 W.A.L.T 方法，用于逼真视频生成。我们采用了两个关键设计决策：一是使用因果编码器在统一的潜在空间中联合压缩图像和视频，实现跨模态的训练和生成；二是为了记忆和训练效率，我们使用了一个针对联合空间和时空生成建模的窗口注意力架构。这些设计决策使我们能够在已知的视频 (UCF-101 和 Kinetics-600) 和图像 (ImageNet) 生成基准上达到最先进的性能，而不使用分类器引导。最后，我们还训练了三个模型的串联，用于文本到视频生成任务，包括基本的潜在视频扩散模型和两个视频超分辨率扩散模型，以每秒 8 帧生成 512 x 896 分辨率的视频。

Dec, 2023

用于生成高保真长视频的潜在视频扩散模型

该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架，可在有限的计算预算下生成更真实、更长的视频，同时提供了大规模文本到视频生成的扩展应用。

Nov, 2022

自回归视频模型的扩展

通过在 Kinetics 数据集上训练基于三维自注意机制的自回归视频生成模型，我们展示了这种概念简单的方法在产生高保真、逼真度更高的视频方面具有竞争力。

Jun, 2019

随机潜在残差视频预测

介绍了一种基于残差更新规则的新型随机时间模型，可用于视频预测，并在复杂数据集上胜过先前的最先进方法。

Feb, 2020

改进的条件性 VRNNs 用于视频预测

本文提出了一种基于层次结构的潜变量模型来提高模型表达能力，减少模糊预测，用于视频序列的未来帧预测任务，经过实验证明本方法在不同数据集上优于现有的潜变量模型。

Apr, 2019

咖啡：隐性扩散变换器用于视频生成

我们提出了一种名为 Latte 的新型潜在扩散 Transformer，用于视频生成，并通过严格的实验分析包括视频裁剪嵌入、模型变种、时间步骤类别信息注入、时间位置嵌入和学习策略来确定 Latte 的最佳实践。我们的综合评估表明，Latte 在四个标准的视频生成数据集中取得了最先进的性能，即 FaceForensics、SkyTimelapse、UCF101 和 Taichi-HD。此外，我们将 Latte 扩展到了文本 - 视频生成（T2V）任务，在这个任务中，Latte 与最近的 T2V 模型相比取得了可媲美的结果。我们坚信 Latte 为将 Transformer 融入视频生成扩散模型的未来研究提供了有价值的见解。

Jan, 2024

VPTR 视频预测的高效 Transformer

本文提出了一个基于局部时空分离的有效空间 - 时间注意机制的 Transformer 块，用于视频未来帧预测，并构建了一个全自回归视频未来帧预测 Transformer 框架，另外还提出了一个非自回归视频预测 Transformer 框架，并引入对比特征损失来监督模型预测过程。本文是第一个在不同场景下对这两种基于注意力的视频未来帧预测模型进行正式比较的工作，所提出的模型在性能上与更复杂的现有模型竞争力相当。

Mar, 2022

VideoGPT: 使用 VQ-VAE 和 Transformers 生成视频

VideoGPT 是一种简单的架构，利用 VQ-VAE 学习离散化的原始视频的下采样离散潜在表示，并使用类似于 GPT 的简单架构来自回归地模拟其离散潜在分布，以帮助生成高保真的自然视频。

Apr, 2021