咖啡：隐性扩散变换器用于视频生成

Jan, 2024

咖啡：隐性扩散变换器用于视频生成

Latte: Latent Diffusion Transformer for Video Generation

Xin Ma, Yaohui Wang, Gengyun Jia, Xinyuan Chen, Ziwei Liu...

TL;DR我们提出了一种名为 Latte 的新型潜在扩散 Transformer，用于视频生成，并通过严格的实验分析包括视频裁剪嵌入、模型变种、时间步骤类别信息注入、时间位置嵌入和学习策略来确定 Latte 的最佳实践。我们的综合评估表明，Latte 在四个标准的视频生成数据集中取得了最先进的性能，即 FaceForensics、SkyTimelapse、UCF101 和 Taichi-HD。此外，我们将 Latte 扩展到了文本 - 视频生成（T2V）任务，在这个任务中，Latte 与最近的 T2V 模型相比取得了可媲美的结果。我们坚信 Latte 为将 Transformer 融入视频生成扩散模型的未来研究提供了有价值的见解。

Abstract

We propose a novel latent diffusion transformer, namely Latte, for video generation. Latte first extracts spatio-temporal tokens from input videos and then adopts a series of Transformer blocks to model

latent diffusion transformer video generation spatio-temporal tokens transformers video distribution

发现论文，激发创造

潜在视频变换器

本文提出了一种使用潜在空间进行视频生成的方法，采用自回归技术预测未来帧的潜在表示，经实验证明其相较于以前的方法在减少计算资源需求的同时，生成质量也得到了保证。

Jun, 2020

扩散模型生成逼真的视频

通过扩散建模，我们提出了一种基于转换器的 W.A.L.T 方法，用于逼真视频生成。我们采用了两个关键设计决策：一是使用因果编码器在统一的潜在空间中联合压缩图像和视频，实现跨模态的训练和生成；二是为了记忆和训练效率，我们使用了一个针对联合空间和时空生成建模的窗口注意力架构。这些设计决策使我们能够在已知的视频 (UCF-101 和 Kinetics-600) 和图像 (ImageNet) 生成基准上达到最先进的性能，而不使用分类器引导。最后，我们还训练了三个模型的串联，用于文本到视频生成任务，包括基本的潜在视频扩散模型和两个视频超分辨率扩散模型，以每秒 8 帧生成 512 x 896 分辨率的视频。

Dec, 2023

使用潜变量扩散模型进行高分辨率视频合成的对齐

该研究将 LDM 范例应用于高分辨率视频生成中，利用图像生成器实现视频生成，利用时间维度对视频超分辨率模型进行精细调整，验证其在真实驾驶视频上的表现，且可将 LDM 应用于文本到视频模型中。

Apr, 2023

稳定的视频扩散：将潜在视频扩散模型扩展到大型数据集

我们提出了稳定的视频扩散 - 一种用于高分辨率的文本到视频和图像到视频生成的潜在视频扩散模型。

Nov, 2023

Lumiere: 一个用于视频生成的时空扩散模型

Lumiere 是一种文本到视频扩散模型，用于综合描绘逼真、多样和连贯的运动，在视频合成中是一个关键的挑战。通过引入空时 U-Net 架构，我们一次性地生成整个视频的时间持续性，与现有的合成关键帧和时间超分辨率的视频模型相比，我们的设计更容易实现全局时间一致性。我们展示了最先进的文本到视频生成结果，并表明我们的设计能够轻松支持广泛的内容创作任务和视频编辑应用，包括图像到视频、视频修复和风格生成。

Jan, 2024

LAVIE：级联潜在扩散模型的高质量视频生成

该研究论文提出了 LaVie，一个整合的视频生成框架，通过利用预训练的文本到图像模型作为基础，以学习高质量的文本到视频生成模型。通过引入简单的时间自注意机制以及联合图像 - 视频微调的过程，LaVie 能够生成视觉逼真且时间连贯的视频，并保留预训练 T2I 模型的创造性。经广泛实验证明，LaVie 在性能上取得了最先进的表现，并可用于不同的长视频生成和个性化视频合成应用。

Sep, 2023

MagicVideo：利用潜在扩散模型高效生成视频

MagicVideo 利用基于潜在扩散模型的高效文本生成视频框架生成与文本内容高度相关的逼真视频片段，并使用低维潜在空间在单个 GPU 卡上生成具有 256x256 空间分辨率的视频片段，可以在 64 倍于最近的视频扩散模型（VDM）的速度下生成。

Nov, 2022

潜移：通过时间位移进行潜在扩散，实现高效的文本到视频生成

该研究提出了一种基于预训练图像生成模型的高效文本到视频生成方法 --Latent-Shift，该方法利用 U-Net 扩散模型在潜空间中学习视频扩散模型。利用无参数的时间移位模块来进行视频的生成工作。研究表明，Latent-Shift 的效果可与或更优于已有的方法，并且能够在进行 T2V 生成的微调的情况下生成图像。

Apr, 2023

用于生成高保真长视频的潜在视频扩散模型

该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架，可在有限的计算预算下生成更真实、更长的视频，同时提供了大规模文本到视频生成的扩展应用。

Nov, 2022

循环去噪：用于文本到视频生成的迭代式去噪

通过复用和扩散的框架 VidRD，使用潜在扩散模型（LDM）和自编码器实现文本到视频生成，获得了良好的定量和定性结果。

Sep, 2023