VFusion3D: 从视频扩散模型中学习可扩展的三维生成模型

Mar, 2024

VFusion3D: 从视频扩散模型中学习可扩展的三维生成模型

VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models

Junlin Han, Filippos Kokkinos, Philip Torr

TL;DR本论文提出了一种利用预训练视频扩散模型构建可扩展的 3D 生成模型的新范例。通过使用视频扩散模型作为 3D 数据的知识源，通过微调其多视图生成能力，生成一个大规模的合成多视图数据集，从而训练出一个前馈的 3D 生成模型。该模型在近 300 万个合成多视图数据上训练，能够在几秒钟内从单张图像生成一个 3D 资源，并在与当前最先进的前馈 3D 生成模型相比取得了更好的性能，用户 70％的时间更喜欢我们的结果。

Abstract

This paper presents a novel paradigm for building scalable 3D generative models utilizing pre-trained video diffusion models. The primary obstacle in developing foundation 3d generative models is the limited avai

3d generative models video diffusion models multi-view dataset fine-tuning synthetic multi-view data

发现论文，激发创造

V3D：视频扩散模型是有效的 3D 生成器

基于视频扩散模型和几何一致性先验的自动生成方法在 3D 生成方面取得了很大突破，能够生成高质量的网格和 3D 高斯帧，并且在场景级别的新视角合成方面取得了优越的性能表现。

Mar, 2024

Vid3D：使用 2D 视频扩散合成动态 3D 场景

该研究讨论了计算机视觉中的一个前沿课题，3D 视频生成，以生成场景的时变 3D 表示为目标。通过提出 Vid3D 模型，研究表明可以通过生成视频的二维 “种子” 和独立生成每个时间步的三维表示，来实现高质量的动态 3D 场景生成，从而不再需要显式建模多视角一致性或三维时间动态，为此任务提供更简单的生成算法。

Jun, 2024

生成渲染：可控的 4D 引导视频生成与 2D 扩散模型

通过将动态 3D 网格的可控性与新兴扩散模型的表达能力和可编辑性相结合，我们提出了一种新的方法来自动化计算机生成的视频的创作过程，并输出高质量和时间上一致的帧。

Dec, 2023

4Real: 通过视频扩散模型实现逼真的四维场景生成

为了解决现有动态场景生成方法的局限性，本研究提出一种新的流程，通过使用视频生成模型，摒弃了对多视图生成模型的依赖，从而充分利用了在多样真实世界数据集上训练的视频生成模型，生成具有增强的逼真度和结构完整性的动态场景，可从多个角度查看，为 4D 场景生成树立了新的标准。

Jun, 2024

Diffusion$^2$: 通过正交扩散模型的得分组合生成动态 3D 内容

Diffusion$^2$ 是一种新颖的框架，通过从视频数据和多视图扩散模型获取几何一致性和时间平滑性的知识，直接生成密集的多视图和多帧图像，优化连续性 4D 表示，从而在几分钟内生成 4D 内容。

Apr, 2024

VideoMV：基於大型視頻生成模型的一致多視角生成

使用来自视频生成模型的图像，通过引入一种新的框架以及 3D 感知降噪采样策略，可以更快速地生成密集视图，提高图像的质量和一致性。

Mar, 2024

4Diffusion: 多视角视频扩散模型的 4D 生成

我们提出了一种新颖的 4D 生成管道，名为 4Diffusion，旨在从单目视频中生成空间时间一致的 4D 内容。通过将可学习的运动模块与冻结的 3D 感知扩散模型结合，我们设计了一个为多视图视频生成量身定制的统一扩散模型，以捕捉多视图空间时间相关性。通过在精心策划的数据集上训练，我们的扩散模型获得了合理的时间一致性，并固有地保留了 3D 感知扩散模型的泛化性和空间一致性。随后，我们提出了基于我们的多视图视频扩散模型的 4D 感知得分蒸馏采样损失，以优化由动态 NeRF 参数化的 4D 表示，从而消除多个扩散模型引起的差异，实现生成空间时间一致的 4D 内容。此外，我们设计了一个锚点损失，以增强外观细节并促进动态 NeRF 的学习。广泛的定性和定量实验证明，我们的方法相比之前的方法具有更好的性能。

May, 2024

SV3D：单图像多视图融合和三维生成的新型潜在视频扩散

我们提出了 Stable Video 3D (SV3D) - 一种用于高分辨率的围绕 3D 对象进行图像到多视图生成的潜在视频扩散模型。

Mar, 2024

Vivid-ZOO: 多视图视频生成与扩散模型

提出了一种基于扩散模型的新方法，从文本生成以动态三维物体为中心的高质量多视图视频，通过将问题分解为视点空间和时间组件，并引入对齐模块来保证生成的多视图视频的一致性和连贯性，同时解决了二维和多视图数据之间的领域差异。

Jun, 2024

视频扩散模型

本研究通过提出扩展图像扩散结构的扩散模型，使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频，并引入一种更好的有条件采样技术，得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。

Apr, 2022