基于布局导向的多视角驾驶场景视频生成与潜在扩散模型

Oct, 2023

基于布局导向的多视角驾驶场景视频生成与潜在扩散模型

DrivingDiffusion: Layout-Guided multi-view driving scene video generation with latent diffusion model

Xiaofan Li, Yifu Zhang, Xiaoqing Ye

TL;DR通过 DrivingDiffusion 框架，在复杂的城市场景中生成大规模、逼真的多相机自动驾驶视频，无需额外成本。

Abstract

With the increasing popularity of autonomous driving based on the powerful and unified bird's-eye-view (BEV) representation, a demand for high-quality and large-scale multi-view video data with accurate annotation is urgently required. However, such large-scale multi-view data is hard

autonomous driving multi-view videos 3d layout drivingdiffusion video generation

发现论文，激发创造

4Diffusion: 多视角视频扩散模型的 4D 生成

我们提出了一种新颖的 4D 生成管道，名为 4Diffusion，旨在从单目视频中生成空间时间一致的 4D 内容。通过将可学习的运动模块与冻结的 3D 感知扩散模型结合，我们设计了一个为多视图视频生成量身定制的统一扩散模型，以捕捉多视图空间时间相关性。通过在精心策划的数据集上训练，我们的扩散模型获得了合理的时间一致性，并固有地保留了 3D 感知扩散模型的泛化性和空间一致性。随后，我们提出了基于我们的多视图视频扩散模型的 4D 感知得分蒸馏采样损失，以优化由动态 NeRF 参数化的 4D 表示，从而消除多个扩散模型引起的差异，实现生成空间时间一致的 4D 内容。此外，我们设计了一个锚点损失，以增强外观细节并促进动态 NeRF 的学习。广泛的定性和定量实验证明，我们的方法相比之前的方法具有更好的性能。

May, 2024

Vid3D：使用 2D 视频扩散合成动态 3D 场景

该研究讨论了计算机视觉中的一个前沿课题，3D 视频生成，以生成场景的时变 3D 表示为目标。通过提出 Vid3D 模型，研究表明可以通过生成视频的二维 “种子” 和独立生成每个时间步的三维表示，来实现高质量的动态 3D 场景生成，从而不再需要显式建模多视角一致性或三维时间动态，为此任务提供更简单的生成算法。

Jun, 2024

MVDream：多视角扩散用于 3D 生成

我们提出 MVDream，这是一个多视图扩散模型，能够根据给定的文本提示生成几何一致的多视图图像。通过利用在大规模 Web 数据集上预训练的图像扩散模型和从 3D 资源渲染的多视图数据集，所得到的多视图扩散模型可以实现 2D 扩散的概括性和 3D 数据的一致性。该模型可以被应用为 3D 生成的多视图先验，通过 Score Distillation Sampling 来解决现有 2D-lifting 方法中的 3D 一致性问题，从而极大地提高了稳定性。最后，我们展示了多视图扩散模型也可以在少量样本设置下进行微调，用于个性化的 3D 生成，即 DreamBooth3D 应用中，在学习主体身份之后可以保持一致性。

Aug, 2023

Vivid-ZOO: 多视图视频生成与扩散模型

提出了一种基于扩散模型的新方法，从文本生成以动态三维物体为中心的高质量多视图视频，通过将问题分解为视点空间和时间组件，并引入对齐模块来保证生成的多视图视频的一致性和连贯性，同时解决了二维和多视图数据之间的领域差异。

Jun, 2024

Diffusion$^2$: 通过正交扩散模型的得分组合生成动态 3D 内容

Diffusion$^2$ 是一种新颖的框架，通过从视频数据和多视图扩散模型获取几何一致性和时间平滑性的知识，直接生成密集的多视图和多帧图像，优化连续性 4D 表示，从而在几分钟内生成 4D 内容。

Apr, 2024

Diffusion4D：基于视频扩散模型的快速时空一致的 4D 生成

基于大规模多模态数据集和扩散模型的进展，我们提出了一种用于高效和可扩展的 4D 内容生成的新框架 Diffusion4D，具备时空一致性、多视角一致性和生成效率方面的优势。

May, 2024

ViVid-1-to-3：带视频扩散模型的新视角合成

利用预训练的视频扩散模型，我们演示了一种非常简单的方法，通过合成互补视角的扫描视频来生成新视角，从而实现高度一致的新视图合成。

Dec, 2023

用于生成高保真长视频的潜在视频扩散模型

该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架，可在有限的计算预算下生成更真实、更长的视频，同时提供了大规模文本到视频生成的扩展应用。

Nov, 2022

MVDiff: 可扩展灵活的多视图扩散用于从单视图进行 3D 物体重建

通过引入情景表示变换器和视图条件扩散模型，该论文提出了一个通用框架，用于从单个图像生成一致的多视图图像。通过多视图注意力和极线几何约束来确保三维一致性，该模型能够从仅一个图像输入生成超过基准方法在评估指标（包括 PSNR、SSIM 和 LPIPS）方面的三维网格。

May, 2024

姿态引导扩散模型的一致视图合成

本文提出了一种姿态引导扩散模型来从单张图像中生成一致的、持久的新视角视频，并设计了一个利用极线作为约束的注意力层以促进不同视角之间的关联。实验结果表明，该模型在合成和真实数据集上表现优异，胜过基于 Transformer 和 GAN 的现有方法。

Mar, 2023