Vid3D：使用 2D 视频扩散合成动态 3D 场景

Jun, 2024

Vid3D：使用 2D 视频扩散合成动态 3D 场景

Vid3D: Synthesis of Dynamic 3D Scenes using 2D Video Diffusion

Rishab Parthasarathy, Zack Ankner, Aaron Gokaslan

TL;DR该研究讨论了计算机视觉中的一个前沿课题，3D 视频生成，以生成场景的时变 3D 表示为目标。通过提出 Vid3D 模型，研究表明可以通过生成视频的二维 “种子” 和独立生成每个时间步的三维表示，来实现高质量的动态 3D 场景生成，从而不再需要显式建模多视角一致性或三维时间动态，为此任务提供更简单的生成算法。

Abstract

A recent frontier in computer vision has been the task of 3D video generation, which consists of generating a time-varying 3D representation of a scene. To generate dynamic 3D scenes, current methods explicitly model 3D

computer vision 3d video generation temporal dynamics multiview consistency generative algorithms

发现论文，激发创造

V3D：视频扩散模型是有效的 3D 生成器

基于视频扩散模型和几何一致性先验的自动生成方法在 3D 生成方面取得了很大突破，能够生成高质量的网格和 3D 高斯帧，并且在场景级别的新视角合成方面取得了优越的性能表现。

Mar, 2024

SV3D：单图像多视图融合和三维生成的新型潜在视频扩散

我们提出了 Stable Video 3D (SV3D) - 一种用于高分辨率的围绕 3D 对象进行图像到多视图生成的潜在视频扩散模型。

Mar, 2024

Diffusion$^2$: 通过正交扩散模型的得分组合生成动态 3D 内容

Diffusion$^2$ 是一种新颖的框架，通过从视频数据和多视图扩散模型获取几何一致性和时间平滑性的知识，直接生成密集的多视图和多帧图像，优化连续性 4D 表示，从而在几分钟内生成 4D 内容。

Apr, 2024

ViVid-1-to-3：带视频扩散模型的新视角合成

利用预训练的视频扩散模型，我们演示了一种非常简单的方法，通过合成互补视角的扫描视频来生成新视角，从而实现高度一致的新视图合成。

Dec, 2023

生成渲染：可控的 4D 引导视频生成与 2D 扩散模型

通过将动态 3D 网格的可控性与新兴扩散模型的表达能力和可编辑性相结合，我们提出了一种新的方法来自动化计算机生成的视频的创作过程，并输出高质量和时间上一致的帧。

Dec, 2023

4Real: 通过视频扩散模型实现逼真的四维场景生成

为了解决现有动态场景生成方法的局限性，本研究提出一种新的流程，通过使用视频生成模型，摒弃了对多视图生成模型的依赖，从而充分利用了在多样真实世界数据集上训练的视频生成模型，生成具有增强的逼真度和结构完整性的动态场景，可从多个角度查看，为 4D 场景生成树立了新的标准。

Jun, 2024

VFusion3D: 从视频扩散模型中学习可扩展的三维生成模型

本论文提出了一种利用预训练视频扩散模型构建可扩展的 3D 生成模型的新范例。通过使用视频扩散模型作为 3D 数据的知识源，通过微调其多视图生成能力，生成一个大规模的合成多视图数据集，从而训练出一个前馈的 3D 生成模型。该模型在近 300 万个合成多视图数据上训练，能够在几秒钟内从单张图像生成一个 3D 资源，并在与当前最先进的前馈 3D 生成模型相比取得了更好的性能，用户 70％的时间更喜欢我们的结果。

Mar, 2024

4Diffusion: 多视角视频扩散模型的 4D 生成

我们提出了一种新颖的 4D 生成管道，名为 4Diffusion，旨在从单目视频中生成空间时间一致的 4D 内容。通过将可学习的运动模块与冻结的 3D 感知扩散模型结合，我们设计了一个为多视图视频生成量身定制的统一扩散模型，以捕捉多视图空间时间相关性。通过在精心策划的数据集上训练，我们的扩散模型获得了合理的时间一致性，并固有地保留了 3D 感知扩散模型的泛化性和空间一致性。随后，我们提出了基于我们的多视图视频扩散模型的 4D 感知得分蒸馏采样损失，以优化由动态 NeRF 参数化的 4D 表示，从而消除多个扩散模型引起的差异，实现生成空间时间一致的 4D 内容。此外，我们设计了一个锚点损失，以增强外观细节并促进动态 NeRF 的学习。广泛的定性和定量实验证明，我们的方法相比之前的方法具有更好的性能。

May, 2024

Diffusion4D：基于视频扩散模型的快速时空一致的 4D 生成

基于大规模多模态数据集和扩散模型的进展，我们提出了一种用于高效和可扩展的 4D 内容生成的新框架 Diffusion4D，具备时空一致性、多视角一致性和生成效率方面的优势。

May, 2024

基于布局导向的多视角驾驶场景视频生成与潜在扩散模型

通过 DrivingDiffusion 框架，在复杂的城市场景中生成大规模、逼真的多相机自动驾驶视频，无需额外成本。

Oct, 2023