COMUNI：基于扩散的视频生成中常见和独特视频信号的分解

Oct, 2024

COMUNI：基于扩散的视频生成中常见和独特视频信号的分解

COMUNI: Decomposing Common and Unique Video Signals for Diffusion-based Video Generation

Mingzhen Sun, Weining Wang, Xinxin Zhu, Jing Liu

TL;DR本研究解决了视频生成中冗余建模常见信号的问题，提出了一种新颖的扩散基础框架COMUNI。该方法通过分解视频信号的常见性和独特性，显著降低了生成模型的计算复杂度，实验结果表明分解信号对视频生成的有效性与必要性。

Abstract

Since videos record objects moving coherently, adjacent video frames have commonness (similar object appearances) and uniqueness (slightly changed postures). To prevent redundant modeling of common video signals, we propose a novel diffusion-based framework, named COMUNI, which decomposes the COMmon and UNIque video signals to enable efficient →

发现论文，激发创造

视频扩散模型

本研究通过提出扩展图像扩散结构的扩散模型，使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频，并引入一种更好的有条件采样技术，得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。

Apr, 2022

VideoFusion：分解扩散模型用于高质量视频生成

本文提出了一种名为VideoFusion的方法，通过分解噪声来处理视频数据，并采用两个联合学习的网络来匹配噪声分解，提高了视频生成的质量，并且还证明了分解噪声公式可以受益于预训练的图像扩散模型和文本条件下的视频生成。

Mar, 2023

LaMD：视频生成的潜在运动扩散

提出了一种基于Motion Generation的视频生成方法，通过Latent Motion Generation和Video Reconstruction实现视频生成的可控性，采用了LaMD框架，包括Motion-decomposed Video Autoencoder和Diffusion-based Motion Generator两部分，实现了高质量、宽泛的运动生成，并在多个基准数据集上创造了新的最先进的性能。

Apr, 2023

VideoGen：一种参考引导的潜在扩散方法用于高清文本到视频生成

使用参考引导的潜在扩散方法，VideoGen提供了一种生成高清晰度、高帧保真度和强时间一致性的视频的方法，通过将文本转换为视频生成。

Sep, 2023

循环去噪：用于文本到视频生成的迭代式去噪

通过复用和扩散的框架VidRD，使用潜在扩散模型（LDM）和自编码器实现文本到视频生成，获得了良好的定量和定性结果。

Sep, 2023

MoVideo：使用扩散模型的运动感知视频生成

提出一种新的运动感知视频生成 (MoVideo) 框架，从视频深度和光流两个方面考虑运动，并通过稀疏-时间扩散模型生成视频深度和光流，然后在潜在空间中生成视频，最后利用光流对不同帧进行对齐和细化，实现了文本到视频和图像到视频生成中最先进的结果。

Nov, 2023

解耦内容与运动进行条件图像到视频的生成

通过将目标RGB像素分解成空间内容和时间运动两个不同的组成部分，我们提出了一种解决传统RGB像素空间方法中涉及建模动作一致性和视觉连贯性限制的新方法。通过显式建模时间运动并将其应用于起始图像，我们改进了生成视频的时间一致性，减少了空间冗余，突出了时间细节。大量实验证实了我们的方法相对于大多数最先进的方法在效果和效率上的卓越性能。

Nov, 2023

稳定的视频扩散：将潜在视频扩散模型扩展到大型数据集

我们提出了稳定的视频扩散-一种用于高分辨率的文本到视频和图像到视频生成的潜在视频扩散模型。

Nov, 2023

通过内容-帧运动-潜变分解实现高效视频扩散模型

该研究提出了一种内容-动态潜在扩散模型 (CMD)，它是针对视频生成的预训练图像扩散模型的一种高效扩展。CMD通过使用预训练图像扩散模型生成内容帧和训练轻量级扩散模型生成动态潜在表征，实现了更高质量的视频生成和降低的计算成本。

Mar, 2024

xGen-VideoSyn-1：高保真文本到视频合成与压缩表示

本研究解决了文本到视频生成过程中高计算成本的问题，提出了一种基于潜在扩散模型的高效视频生成方法。通过引入视频变分自编码器(VidVAE)和分段合并策略，优化了视频数据的处理，并保持临时一致性。实验结果表明，xGen-VideoSyn-1在生成720p视频时具备竞争力的性能，推动了文本到视频合成技术的发展。

Aug, 2024