2D Triplane 和 3D 小波表示的混合视频扩散模型

Feb, 2024

2D Triplane 和 3D 小波表示的混合视频扩散模型

Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation

Kihong Kim, Haneol Lee, Jihye Park, Seyeon Kim, Kwanghee Lee...

TL;DR提出了一种名为 HVDM 的混合视频扩散模型，能更有效地捕捉视频的时空依赖关系并生成高质量的视频。通过混合视频自动编码器，提取视频的解离表示，包括全局上下文信息、本地体积信息和频率信息，以实现更全面的视频潜变量并丰富生成视频的细节和结构。实验证明该方法在视频生成质量方面达到了最先进水平，并具有广泛的视频应用。

Abstract

Generating high-quality videos that synthesize desired realistic content is a challenging task due to their intricate high-dimensionality and complexity of videos. Several recent diffusion-based methods have shown comparable performance by compressing videos to a lower-dimensional latent space, using traditional video autoencoder architecture. However, such

video generation diffusion model spatio-temporal dependencies hybrid video autoencoder video reconstruction

发现论文，激发创造

投影潜空间中的视频概率扩散模型

提出了一种名为投影潜空间扩散模型（PVDM）的新型生成模型，该模型在低维潜空间中学习视频分布，通过自编码器将视频投影为二维形状的潜变量，使用专用于新因式潜空间的扩散模型架构和训练 / 采样程序，能够高效地训练和合成任意长度的视频。实验表明与以前的视频生成方法相比，PVDM 在 FVD 评估指标上获得了最高的得分。

Feb, 2023

用于生成高保真长视频的潜在视频扩散模型

该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架，可在有限的计算预算下生成更真实、更长的视频，同时提供了大规模文本到视频生成的扩展应用。

Nov, 2022

GD-VDM: 基于生成深度的扩散视频生成方法

本文提出了一种新的扩散模型 GD-VDM 用于视频生成，通过在生成深度视频和扩散 Vid2Vid 模型之间的两个阶段进行，能够生成更加多样化、复杂的场景。

Jun, 2023

扩散模型生成逼真的视频

通过扩散建模，我们提出了一种基于转换器的 W.A.L.T 方法，用于逼真视频生成。我们采用了两个关键设计决策：一是使用因果编码器在统一的潜在空间中联合压缩图像和视频，实现跨模态的训练和生成；二是为了记忆和训练效率，我们使用了一个针对联合空间和时空生成建模的窗口注意力架构。这些设计决策使我们能够在已知的视频 (UCF-101 和 Kinetics-600) 和图像 (ImageNet) 生成基准上达到最先进的性能，而不使用分类器引导。最后，我们还训练了三个模型的串联，用于文本到视频生成任务，包括基本的潜在视频扩散模型和两个视频超分辨率扩散模型，以每秒 8 帧生成 512 x 896 分辨率的视频。

Dec, 2023

Vivid-ZOO: 多视图视频生成与扩散模型

提出了一种基于扩散模型的新方法，从文本生成以动态三维物体为中心的高质量多视图视频，通过将问题分解为视点空间和时间组件，并引入对齐模块来保证生成的多视图视频的一致性和连贯性，同时解决了二维和多视图数据之间的领域差异。

Jun, 2024

Vid3D：使用 2D 视频扩散合成动态 3D 场景

该研究讨论了计算机视觉中的一个前沿课题，3D 视频生成，以生成场景的时变 3D 表示为目标。通过提出 Vid3D 模型，研究表明可以通过生成视频的二维 “种子” 和独立生成每个时间步的三维表示，来实现高质量的动态 3D 场景生成，从而不再需要显式建模多视角一致性或三维时间动态，为此任务提供更简单的生成算法。

Jun, 2024

VIDM: 视频隐式扩散模型

该研究提出基于扩散模型的视频生成方法，通过隐式条件建模来模拟运动效果，并提出多种策略来优化生成视频的质量。实验证明，该方法在 FVD 得分和视觉质量方面明显优于现有的以生成对抗网络为基础的方法。

Dec, 2022

文本到视频生成的层次化时空解耦

提出了 HiGen，一种基于扩散模型的方法，通过从结构层面和内容层面解耦视频的空间和时间因素，实现了在生成视频时具备语义准确性和运动稳定性的方法。

Dec, 2023

WildFusion：学习视角空间中的三维感知潜空扩散模型

基于视图空间和潜在扩散模型的 3D 感知图像合成方法，通过压缩潜在表示学习图像的 3D 结构，实现高质量的 3D-consistent 图像合成，无需多视角或 3D 几何的直接监督，不依赖于规范化的相机坐标。

Nov, 2023

VideoFusion：分解扩散模型用于高质量视频生成

本文提出了一种名为 VideoFusion 的方法，通过分解噪声来处理视频数据，并采用两个联合学习的网络来匹配噪声分解，提高了视频生成的质量，并且还证明了分解噪声公式可以受益于预训练的图像扩散模型和文本条件下的视频生成。

Mar, 2023