ViD-GPT：在视频扩散模型中引入 GPT 风格的自回归生成

Jun, 2024

ViD-GPT：在视频扩散模型中引入 GPT 风格的自回归生成

ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models

Kaifeng Gao, Jiaxin Shi, Hanwang Zhang, Chunping Wang, Jun Xiao

TL;DR利用巨大语言模型和 GPT，我们将因果生成引入视频扩散模型中，通过引入因果时序注意力和以帧为提示的设计，我们提出了 Video Diffusion GPT（ViD-GPT），能够在生成每个时刻的帧时获取来自之前所有生成帧的长期上下文。通过引入 kv-cache 机制，我们还能够消除重叠帧的冗余计算，显著提高了推理速度。广泛的实验证明，我们的 ViD-GPT 在长视频生成方面在定量和定性上均取得了最先进的性能。

Abstract

With the advance of diffusion models, today's video generation has achieved impressive quality. But generating temporal consistent long videos is still challenging. A majority of video →

video generation diffusion models causal generation temporal attention long video generation

发现论文，激发创造

用于生成高保真长视频的潜在视频扩散模型

该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架，可在有限的计算预算下生成更真实、更长的视频，同时提供了大规模文本到视频生成的扩展应用。

Nov, 2022

VideoGPT: 使用 VQ-VAE 和 Transformers 生成视频

VideoGPT 是一种简单的架构，利用 VQ-VAE 学习离散化的原始视频的下采样离散潜在表示，并使用类似于 GPT 的简单架构来自回归地模拟其离散潜在分布，以帮助生成高保真的自然视频。

Apr, 2021

ART・V: 基于扩散模型的自回归文本到视频生成

ART・V 是一个高效的自回归视频生成框架，使用扩散模型逐帧生成视频，并通过简化连续帧之间的运动来避免建模复杂的远程运动，同时保留预训练图像扩散模型的高保真生成能力。通过结合文本、图像等多种提示，ART・V 可以生成任意长度的视频，具有高度的多功能性和灵活性。通过引入掩蔽扩散模型和使用初始帧作为条件，ART・V 进一步提升了生成一致性和生成的视觉质量，能够在短时间内生成带有自然运动、丰富细节和高美感的视频，并支持多个文本提示组合成长视频的应用。

Nov, 2023

StreamingT2V：基于文本的一致、动态、可扩展长视频生成

通过 StreamingT2V 方法，可以实现高质量的长视频生成，该方法采用文本到视频扩散模型并引入条件注意模块，具有一致性和高运动量。

Mar, 2024

GD-VDM: 基于生成深度的扩散视频生成方法

本文提出了一种新的扩散模型 GD-VDM 用于视频生成，通过在生成深度视频和扩散 Vid2Vid 模型之间的两个阶段进行，能够生成更加多样化、复杂的场景。

Jun, 2023

投影潜空间中的视频概率扩散模型

提出了一种名为投影潜空间扩散模型（PVDM）的新型生成模型，该模型在低维潜空间中学习视频分布，通过自编码器将视频投影为二维形状的潜变量，使用专用于新因式潜空间的扩散模型架构和训练 / 采样程序，能够高效地训练和合成任意长度的视频。实验表明与以前的视频生成方法相比，PVDM 在 FVD 评估指标上获得了最高的得分。

Feb, 2023

视频扩散模型

本研究通过提出扩展图像扩散结构的扩散模型，使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频，并引入一种更好的有条件采样技术，得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。

Apr, 2022

Gen-L-Video：多文本到长视频生成与时域协同去噪

本文提出了一种称为 Gen-L-Video 的新方法，该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力，使其能够生成和编辑具有多个语义段的数百帧的长视频，而不需要额外的训练，从而极大地拓宽了视频扩散模型的生成和编辑能力。

May, 2023

自回归视频模型的扩展

通过在 Kinetics 数据集上训练基于三维自注意机制的自回归视频生成模型，我们展示了这种概念简单的方法在产生高保真、逼真度更高的视频方面具有竞争力。

Jun, 2019

循环去噪：用于文本到视频生成的迭代式去噪

通过复用和扩散的框架 VidRD，使用潜在扩散模型（LDM）和自编码器实现文本到视频生成，获得了良好的定量和定性结果。

Sep, 2023