潜移：通过时间位移进行潜在扩散，实现高效的文本到视频生成

Apr, 2023

潜移：通过时间位移进行潜在扩散，实现高效的文本到视频生成

Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation

Jie An, Songyang Zhang, Harry Yang, Sonal Gupta, Jia-Bin Huang...

TL;DR该研究提出了一种基于预训练图像生成模型的高效文本到视频生成方法 --Latent-Shift，该方法利用 U-Net 扩散模型在潜空间中学习视频扩散模型。利用无参数的时间移位模块来进行视频的生成工作。研究表明，Latent-Shift 的效果可与或更优于已有的方法，并且能够在进行 T2V 生成的微调的情况下生成图像。

Abstract

We propose latent-shift -- an efficient text-to-video generation method based on a pretrained text-to-image generation model that consists of an autoencoder and a →

text-to-video generation pretrained model latent-shift u-net diffusion model temporal shift module

发现论文，激发创造

MagicVideo：利用潜在扩散模型高效生成视频

MagicVideo 利用基于潜在扩散模型的高效文本生成视频框架生成与文本内容高度相关的逼真视频片段，并使用低维潜在空间在单个 GPU 卡上生成具有 256x256 空间分辨率的视频片段，可以在 64 倍于最近的视频扩散模型（VDM）的速度下生成。

Nov, 2022

Lumiere: 一个用于视频生成的时空扩散模型

Lumiere 是一种文本到视频扩散模型，用于综合描绘逼真、多样和连贯的运动，在视频合成中是一个关键的挑战。通过引入空时 U-Net 架构，我们一次性地生成整个视频的时间持续性，与现有的合成关键帧和时间超分辨率的视频模型相比，我们的设计更容易实现全局时间一致性。我们展示了最先进的文本到视频生成结果，并表明我们的设计能够轻松支持广泛的内容创作任务和视频编辑应用，包括图像到视频、视频修复和风格生成。

Jan, 2024

文本到视频生成的网格扩散模型

通过使用网格扩散模型生成视频，我们可以通过固定数量的 GPU 内存生成高质量的视频，减小视频维度从而可以应用各种基于图像的方法，如基于文本的视频操作。我们的方法在定量和定性评估中表现优于现有方法，证明了我们的模型在真实世界中进行视频生成的适用性。

Mar, 2024

高分辨率视频的时间一致性扩展扩散模型

通过文本引导的潜在扩散框架，实现视频升尺度，并在保持时域一致性和质量平衡之间提供更大灵活性。

Dec, 2023

使用潜变量扩散模型进行高分辨率视频合成的对齐

该研究将 LDM 范例应用于高分辨率视频生成中，利用图像生成器实现视频生成，利用时间维度对视频超分辨率模型进行精细调整，验证其在真实驾驶视频上的表现，且可将 LDM 应用于文本到视频模型中。

Apr, 2023

潜在变形：用于零样本视频到视频翻译的一致性扩散潜变量

通过图像扩散模型的生成能力，我们提出了一种名为 LatentWarp 的新的零样本视频 - 视频翻译框架，通过约束查询令牌的时间一致性，在潜在空间中进一步结合了变形操作以约束查询令牌，从而实现了生成视频的视觉时间相干性的提升。

Nov, 2023

扩散模型生成逼真的视频

通过扩散建模，我们提出了一种基于转换器的 W.A.L.T 方法，用于逼真视频生成。我们采用了两个关键设计决策：一是使用因果编码器在统一的潜在空间中联合压缩图像和视频，实现跨模态的训练和生成；二是为了记忆和训练效率，我们使用了一个针对联合空间和时空生成建模的窗口注意力架构。这些设计决策使我们能够在已知的视频 (UCF-101 和 Kinetics-600) 和图像 (ImageNet) 生成基准上达到最先进的性能，而不使用分类器引导。最后，我们还训练了三个模型的串联，用于文本到视频生成任务，包括基本的潜在视频扩散模型和两个视频超分辨率扩散模型，以每秒 8 帧生成 512 x 896 分辨率的视频。

Dec, 2023

稳定的视频扩散：将潜在视频扩散模型扩展到大型数据集

我们提出了稳定的视频扩散 - 一种用于高分辨率的文本到视频和图像到视频生成的潜在视频扩散模型。

Nov, 2023

用于生成高保真长视频的潜在视频扩散模型

该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架，可在有限的计算预算下生成更真实、更长的视频，同时提供了大规模文本到视频生成的扩展应用。

Nov, 2022

循环去噪：用于文本到视频生成的迭代式去噪

通过复用和扩散的框架 VidRD，使用潜在扩散模型（LDM）和自编码器实现文本到视频生成，获得了良好的定量和定性结果。

Sep, 2023