4Diffusion: 多视角视频扩散模型的 4D 生成

May, 2024

4Diffusion: 多视角视频扩散模型的 4D 生成

4Diffusion: Multi-view Video Diffusion Model for 4D Generation

Haiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang...

TL;DR我们提出了一种新颖的 4D 生成管道，名为 4Diffusion，旨在从单目视频中生成空间时间一致的 4D 内容。通过将可学习的运动模块与冻结的 3D 感知扩散模型结合，我们设计了一个为多视图视频生成量身定制的统一扩散模型，以捕捉多视图空间时间相关性。通过在精心策划的数据集上训练，我们的扩散模型获得了合理的时间一致性，并固有地保留了 3D 感知扩散模型的泛化性和空间一致性。随后，我们提出了基于我们的多视图视频扩散模型的 4D 感知得分蒸馏采样损失，以优化由动态 NeRF 参数化的 4D 表示，从而消除多个扩散模型引起的差异，实现生成空间时间一致的 4D 内容。此外，我们设计了一个锚点损失，以增强外观细节并促进动态 NeRF 的学习。广泛的定性和定量实验证明，我们的方法相比之前的方法具有更好的性能。

Abstract

Current 4d generation methods have achieved noteworthy efficacy with the aid of advanced diffusion generative models. However, these methods lack multi-view →

4d generation diffusion generative models spatial-temporal modeling multi-view video generation score distillation sampling loss

发现论文，激发创造

Diffusion4D：基于视频扩散模型的快速时空一致的 4D 生成

基于大规模多模态数据集和扩散模型的进展，我们提出了一种用于高效和可扩展的 4D 内容生成的新框架 Diffusion4D，具备时空一致性、多视角一致性和生成效率方面的优势。

May, 2024

Diffusion$^2$: 通过正交扩散模型的得分组合生成动态 3D 内容

Diffusion$^2$ 是一种新颖的框架，通过从视频数据和多视图扩散模型获取几何一致性和时间平滑性的知识，直接生成密集的多视图和多帧图像，优化连续性 4D 表示，从而在几分钟内生成 4D 内容。

Apr, 2024

4Real: 通过视频扩散模型实现逼真的四维场景生成

为了解决现有动态场景生成方法的局限性，本研究提出一种新的流程，通过使用视频生成模型，摒弃了对多视图生成模型的依赖，从而充分利用了在多样真实世界数据集上训练的视频生成模型，生成具有增强的逼真度和结构完整性的动态场景，可从多个角度查看，为 4D 场景生成树立了新的标准。

Jun, 2024

STAG4D：空间 - 时间定位生成的 4D 高斯

在本研究中，我们提出了 STAG4D，这是一种结合了预训练扩散模型和动态 3D 高斯雪碧的新型框架，用于高保真度的 4D 生成，通过利用多视图扩散模型初始化输入视频帧上的多视图图像，以确保多视图序列初始化的时间一致性，并应用得分蒸馏采样来优化 4D 高斯点云。

Mar, 2024

基于布局导向的多视角驾驶场景视频生成与潜在扩散模型

通过 DrivingDiffusion 框架，在复杂的城市场景中生成大规模、逼真的多相机自动驾驶视频，无需额外成本。

Oct, 2023

单目视频的动态视图合成的扩散先验

通过预定制技术在视频帧上微调预训练的 RGB-D 扩散模型，然后将知识从微调的模型提取到包含动态和静态神经辐射场（NeRF）组件的 4D 表示中，实现几何一致性并保持场景的一致性，从而进一步推进动态新视角合成。

Jan, 2024

视频扩散模型

本研究通过提出扩展图像扩散结构的扩散模型，使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频，并引入一种更好的有条件采样技术，得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。

Apr, 2022

Vid3D：使用 2D 视频扩散合成动态 3D 场景

该研究讨论了计算机视觉中的一个前沿课题，3D 视频生成，以生成场景的时变 3D 表示为目标。通过提出 Vid3D 模型，研究表明可以通过生成视频的二维 “种子” 和独立生成每个时间步的三维表示，来实现高质量的动态 3D 场景生成，从而不再需要显式建模多视角一致性或三维时间动态，为此任务提供更简单的生成算法。

Jun, 2024

V3D：视频扩散模型是有效的 3D 生成器

基于视频扩散模型和几何一致性先验的自动生成方法在 3D 生成方面取得了很大突破，能够生成高质量的网格和 3D 高斯帧，并且在场景级别的新视角合成方面取得了优越的性能表现。

Mar, 2024

MVDream：多视角扩散用于 3D 生成

我们提出 MVDream，这是一个多视图扩散模型，能够根据给定的文本提示生成几何一致的多视图图像。通过利用在大规模 Web 数据集上预训练的图像扩散模型和从 3D 资源渲染的多视图数据集，所得到的多视图扩散模型可以实现 2D 扩散的概括性和 3D 数据的一致性。该模型可以被应用为 3D 生成的多视图先验，通过 Score Distillation Sampling 来解决现有 2D-lifting 方法中的 3D 一致性问题，从而极大地提高了稳定性。最后，我们展示了多视图扩散模型也可以在少量样本设置下进行微调，用于个性化的 3D 生成，即 DreamBooth3D 应用中，在学习主体身份之后可以保持一致性。

Aug, 2023