Snap Video：用于文本到视频合成的缩放时空 Transformers

Feb, 2024

Snap Video：用于文本到视频合成的缩放时空 Transformers

Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis

Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Ekaterina Deyneka, Tsai-Shien Chen...

TL;DR生成高质量、时空连贯、动作复杂的视频，提升图像模型的视频生成能力，并减少运算负载。

Abstract

Contemporary models for generating images show remarkable quality and versatility. Swayed by these advantages, the research community repurposes them to generate videos. Since video content is highly redundant, we argue that naively bringing advances of image models to the

video generation image models motion fidelity visual quality transformer-based architecture

发现论文，激发创造

通过 Transformer 实现的简单文本到视频模型

我们提出了一个基于 Transformer 的通用简单文本到视频模型，将文本和视频编码到相同的隐藏空间，使用 Transformer 捕捉时间一致性并生成文本或图像，通过 U-Net 从噪音版本重构图像，增加图像中的噪音级别，使用 U-Net 的 $down$ 模块编码噪音图像，在 Transformer 中输入以预测下一个清晰图像，同时限制任何生成图像对之间的运动，使用 GPT2 在 UCF101 数据集上进行测试并展示其能够生成有希望的视频。

Sep, 2023

Video Swin Transformer

本文介绍了一种针对视频领域的区域局部性 Transformer 架构，通过使用 Swin Transformer 设计来实现，同时利用预训练模型的威力，取得了行动识别和时间建模等广泛的视频识别基准的最新准确性。

Jun, 2021

基于 Transformer 的大规模预训练文字到视频生成技术 CogVideo

该研究提出 CogVideo，一个 9B 参数的 transformer 预训练模型，通过继承预训练的文本到图像模型 CogView2 进行训练，同时采用多帧率层次化训练策略以更好地对齐文本和视频片段。作为可能是第一个开源的大规模预训练文本到视频模型，CogVideo 在机器和人类评估中的表现均远超公开的模型。

May, 2022

VideoFactory: 基于时空扩散的交换注意力机制用于文本到视频生成

VideoFactory 是一种通过使用 swapped cross-attention mechanism 从而加强空间和时间相互感知的方法，并借助大规模的 HD-VG-130M 视频数据集，实现生成无水印、高清晰度、通用领域的视频。研究结果表明，该方法在单帧质量、时间相关性和文本视频对齐方面具有明显优势。

May, 2023

ViViT: 一种视频视觉 Transformer

本研究提出一种基于纯 Transformer 模型的视频分类方法，采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记，并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列，我们提出了一些高效的模型变体，可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效，但我们展示了如何有效规范化模型，并利用预训练的图像模型，使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究，并在多个视频分类基准测试中实现了最先进的结果，包括 Kinetics 400 和 600，Epic Kitchens，Something-Something v2 和 Moments in Time，优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究，我们在以下链接中发布了代码。

Mar, 2021

基于无时间感知 VQGAN 和时间敏感 Transformer 的长视频生成

本文提出了一种利用 3D-VQGAN 和 transformers 生成长视频的方法，并通过 UCF-101、Sky Time-lapse 和 Taichi-HD 数据集的 16 帧视频剪辑进行了验证，同时还展示了结合文本和音频等条件扩展的方法。

Apr, 2022

SViTT: 稀疏视频文本 Transformer 的时间学习

通过引入边缘稀疏性和节点稀疏性的 SViTT 稀疏视频文本架构可以以较低的成本进行多帧推理，优于朴素变压器基线，并对多个视频文本检索和问答基准进行了训练，以及在更长的片段长度下是针对模型稀疏性（sparsity）进行了培训。

Apr, 2023

凝固的时间：一种用于端到端检索的联合视频和图像编码器

本研究目标是视频文本检索 - 特别是一种联合嵌入，可以实现高效的文本到视频检索。作者们提出了一种端到端可训练的模型，旨在利用大规模的图像和视频字幕数据集。该模型是近期 ViT 和 Timesformer 框架的改进扩展，包括时间和空间方面的注意力机制。通过训练 WebVid-2M 数据集，作者们表明这种方法在标准下游的视频检索基准测试中取得了最先进的结果。

Apr, 2021

FlashVideo：快速从文本生成视频的框架

FlashVideo 是一种新颖框架，通过使用 RetNet 架构，将序列长度为 L 的推理时间复杂度从 O (L^2) 降低到 O (L)，从而显著加快推理速度，并且通过抛弃冗余帧插值方法来增强帧插值的效率，实现了相对传统自回归转换模型的 9.17 倍效率提升，并且推理速度与基于 BERT 的转换模型相当。

Dec, 2023

VideoGPT: 使用 VQ-VAE 和 Transformers 生成视频

VideoGPT 是一种简单的架构，利用 VQ-VAE 学习离散化的原始视频的下采样离散潜在表示，并使用类似于 GPT 的简单架构来自回归地模拟其离散潜在分布，以帮助生成高保真的自然视频。

Apr, 2021