MAGVIT: 掩码生成式视频变换器

CVPRDec, 2022

MAGVIT: Masked Generative Video Transformer

Lijun Yu, Yong Cheng, Kihyuk Sohn, José Lezama, Han Zhang...

TL;DR本研究提出了 MAgVIT，通过 3D 分词器对视频进行量化并通过视频掩码令牌建模进行多任务学习，展示了 MAgVIT 在视频生成任务中的质量、效率和灵活性，且支持多种生成任务。

Abstract

We introduce the MAsked Generative VIdeo Transformer, magvit, to tackle various video synthesis tasks with a single model. We introduce a 3D tokenizer to quantize a video into spatial-temporal visual tokens and p

magvit video synthesis masked video token modeling multi-task learning efficiency

发现论文，激发创造

MaskViT: 视频预测的掩蔽视觉预训练

本研究展示通过基于遮蔽视觉建模的 Transformer 预训练可以创建良好的视频预测模型，且仅需最少领域知识即可赋予具有强大预测模型的实体智能体。

Jun, 2022

MAGVLT: 遮盖式生成式视觉与语言转换器

本篇论文提出了一种基于变压器的联合视觉与语言模型，名为 MAGVLT，它可以生成图像和文本序列，并且相对于以前的模型具有双向上下文编码和更快的并行词汇预测等优点。经过实验证明，MAGVLT 可以在零样本情况下使用较小的模型（少于 500M 参数）在 MS-COCO 数据集上取得很好的成果。

Mar, 2023

语言模型领先于扩散 - 分词器是视觉生成的关键

通过引入 MAGVIT-v2 作为视觉分词器，本文展示了大型语言模型（LLMs）在图像和视频生成上优于扩散模型，并超越以前在视频压缩和动作识别任务中表现最佳的视频分词器。

Oct, 2023

MaskGIT: 掩码生成式图像转换器

本文提出了一种新的图像合成模型 ——MaskGIT，采用双向 transformer 解码器，通过学习预测随机遮罩的 tokens 并在推理时同时生成全部 tokens，迭代地改进图像以获得高保真度和高分辨率的生成图像，并在 ImageNet 数据集上优于现有模型，同时通过自回归解码加速达到 64 倍，还可轻松扩展到各种图像编辑任务中。

Feb, 2022

VIOLET: 基于端到端视频 - 语言变换器的遮蔽视觉令牌建模

VIOLET 是一个采用视频变换器来显式建模视频输入的全尺寸端到端视频语言变换器，通过设计一个新的预训练任务 Masked Visual-token Modeling（MVM）进行更好的视频建模，综合分析证明了其显式时间建模和 MVM 的有效性，取得了 5 种视频问答任务和 4 种文本到视频检索任务的最新最好性能。

Nov, 2021

ViViT: 一种视频视觉 Transformer

本研究提出一种基于纯 Transformer 模型的视频分类方法，采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记，并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列，我们提出了一些高效的模型变体，可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效，但我们展示了如何有效规范化模型，并利用预训练的图像模型，使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究，并在多个视频分类基准测试中实现了最先进的结果，包括 Kinetics 400 和 600，Epic Kitchens，Something-Something v2 和 Moments in Time，优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究，我们在以下链接中发布了代码。

Mar, 2021

使用单一非自回归变换器生成掩盖音频

我们介绍了 MAGNeT，一种遮蔽生成序列建模方法，直接操作多个音频令牌流。MAGNeT 由一个单阶段的非自回归变换器组成，在训练过程中，我们预测来自掩码调度器的遮蔽令牌跨度，而在推断过程中，我们逐步构建输出序列使用多个解码步骤。为了进一步提高生成音频的质量，我们引入了一种新的再评分方法，其中我们利用外部预训练模型对 MAGNeT 的预测进行再评分和排序，然后用于后续的解码步骤。最后，我们探索了 MAGNeT 的混合版本，其中我们在自回归方式下生成前几秒，而其余序列则并行解码。我们展示了 MAGNeT 在文本转音乐和文本转音频生成任务中的效率，并进行了大量的实证评估，考虑客观指标和人类研究。所提出的方法与评估基线相当，而且速度显著更快（比自回归基线快 7 倍）。通过消融研究和分析，我们阐明了构成 MAGNeT 的每个组成部分的重要性，并指出了自回归和非自回归建模之间的权衡，考虑到延迟、吞吐量和生成质量。我们的演示页面上提供了样本，位于此 https URL。

Jan, 2024

HiViT: 分层视觉 Transformer 遇见掩蔽图像建模

本文提出了一种名为 HiViT 的分层视觉转换器的设计，该设计在 MIM 中具有高效性和良好的性能，通过关闭 Swim Transformer 的局部对单元操作并显示层次结构，将蒙版单元序列化为普通视觉变换器，经实证研究表明，在 ImageNet-1K 上运行 MAE，HiViT-B 相对于 ViT-B 的准确率提高了 0.6％，比 Swin-B 快了 1.9 倍，表现提高泛化到检测和分割等下游任务。

May, 2022

MagicVideo-V2: 多阶段高美学视频生成

MagicVideo-V2 通过将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块整合到端到端视频生成流程中，可以生成具有出色保真度和平滑度的美观、高分辨率视频，在大规模用户评估中表现出比 Runway、Pika 1.0、Morph、Moon Valley 和 Stable Video Diffusion 模型更优秀的性能。

Jan, 2024

MagicVideo：利用潜在扩散模型高效生成视频

MagicVideo 利用基于潜在扩散模型的高效文本生成视频框架生成与文本内容高度相关的逼真视频片段，并使用低维潜在空间在单个 GPU 卡上生成具有 256x256 空间分辨率的视频片段，可以在 64 倍于最近的视频扩散模型（VDM）的速度下生成。

Nov, 2022