文本到视频生成的网格扩散模型

CVPRMar, 2024

Grid Diffusion Models for Text-to-Video Generation

Taegyeong Lee, Soyeong Kwon, Taehwan Kim

TL;DR通过使用网格扩散模型生成视频，我们可以通过固定数量的 GPU 内存生成高质量的视频，减小视频维度从而可以应用各种基于图像的方法，如基于文本的视频操作。我们的方法在定量和定性评估中表现优于现有方法，证明了我们的模型在真实世界中进行视频生成的适用性。

Abstract

Recent advances in the diffusion models have significantly improved text-to-image generation. However, generating videos from text is a more challenging task than generating images from text, due to the much larger dataset and higher computational cost required. Most existing video gen

diffusion models text-to-video generation grid diffusion gpu memory text-guided video manipulation

发现论文，激发创造

生成渲染：可控的 4D 引导视频生成与 2D 扩散模型

通过将动态 3D 网格的可控性与新兴扩散模型的表达能力和可编辑性相结合，我们提出了一种新的方法来自动化计算机生成的视频的创作过程，并输出高质量和时间上一致的帧。

Dec, 2023

用于生成高保真长视频的潜在视频扩散模型

该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架，可在有限的计算预算下生成更真实、更长的视频，同时提供了大规模文本到视频生成的扩展应用。

Nov, 2022

VideoGen：一种参考引导的潜在扩散方法用于高清文本到视频生成

使用参考引导的潜在扩散方法，VideoGen 提供了一种生成高清晰度、高帧保真度和强时间一致性的视频的方法，通过将文本转换为视频生成。

Sep, 2023

MagicVideo：利用潜在扩散模型高效生成视频

MagicVideo 利用基于潜在扩散模型的高效文本生成视频框架生成与文本内容高度相关的逼真视频片段，并使用低维潜在空间在单个 GPU 卡上生成具有 256x256 空间分辨率的视频片段，可以在 64 倍于最近的视频扩散模型（VDM）的速度下生成。

Nov, 2022

视频扩散模型

本研究通过提出扩展图像扩散结构的扩散模型，使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频，并引入一种更好的有条件采样技术，得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。

Apr, 2022

Vivid-ZOO: 多视图视频生成与扩散模型

提出了一种基于扩散模型的新方法，从文本生成以动态三维物体为中心的高质量多视图视频，通过将问题分解为视点空间和时间组件，并引入对齐模块来保证生成的多视图视频的一致性和连贯性，同时解决了二维和多视图数据之间的领域差异。

Jun, 2024

Dreamix：视频传播模型是通用视频编辑器

该研究提出了一种基于视频扩散模型的图像和视频编辑方法，利用时序信息和高分辨率信息生成与指导文本匹配的视频，并以完全时间关注和时间关注掩码联合完成模型的微调，实现了较好的编辑效果。

Feb, 2023

TokenFlow：一致扩散特征用于一致视频编辑

基于文本驱动的视频编辑，我们介绍了一个利用文本到图像扩散模型的框架，生成高质量视频的同时保留输入视频的空间布局和运动，实现编辑视频的一致性。

Jul, 2023

ART・V: 基于扩散模型的自回归文本到视频生成

ART・V 是一个高效的自回归视频生成框架，使用扩散模型逐帧生成视频，并通过简化连续帧之间的运动来避免建模复杂的远程运动，同时保留预训练图像扩散模型的高保真生成能力。通过结合文本、图像等多种提示，ART・V 可以生成任意长度的视频，具有高度的多功能性和灵活性。通过引入掩蔽扩散模型和使用初始帧作为条件，ART・V 进一步提升了生成一致性和生成的视觉质量，能够在短时间内生成带有自然运动、丰富细节和高美感的视频，并支持多个文本提示组合成长视频的应用。

Nov, 2023

Lumiere: 一个用于视频生成的时空扩散模型

Lumiere 是一种文本到视频扩散模型，用于综合描绘逼真、多样和连贯的运动，在视频合成中是一个关键的挑战。通过引入空时 U-Net 架构，我们一次性地生成整个视频的时间持续性，与现有的合成关键帧和时间超分辨率的视频模型相比，我们的设计更容易实现全局时间一致性。我们展示了最先进的文本到视频生成结果，并表明我们的设计能够轻松支持广泛的内容创作任务和视频编辑应用，包括图像到视频、视频修复和风格生成。

Jan, 2024