VideoMV：基於大型視頻生成模型的一致多視角生成

Mar, 2024

VideoMV：基於大型視頻生成模型的一致多視角生成

VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model

Qi Zuo, Xiaodong Gu, Lingteng Qiu, Yuan Dong, Zhengyi Zhao...

TL;DR使用来自视频生成模型的图像，通过引入一种新的框架以及 3D 感知降噪采样策略，可以更快速地生成密集视图，提高图像的质量和一致性。

Abstract

Generating multi-view images based on text or single-image prompts is a critical capability for the creation of 3d content. Two fundamental questions on this topic are what data we use for training and how to ens

multi-view images 3d content video generative models 3d-aware denoising sampling visual quality

发现论文，激发创造

MVD-Fusion: 单视角 3D 通过深度一致的多视角生成

通过对多视角一致的 RGB-D 图像进行生成建模，我们提出了 MVD-Fusion：一种用于通过单视角推理 3D 的方法。

Apr, 2024

ViewDiff：利用文本到图像模型的 3D 一致图像生成

本文提出一种新的方法，利用预训练的文字转图像模型作为先验知识，从真实世界数据中的单个去噪过程中生成多视角图像，并且通过在现有 U-Net 网络的每个块中整合 3D 体渲染和跨帧注意力层，设计出自回归生成方法，在任意视点上呈现更具一致性的 3D 图像。与现有方法相比，我们的方法生成的结果是一致的，并且具有优秀的视觉质量（FID 降低 30%，KID 降低 37%）。

Mar, 2024

多视角一致性生成对抗网络用于 3D 感知图像合成

提出了一种基于多视角一致性生成对抗网络（MVCGAN）的高质量 3D 感知图像综合方法，采用几何约束技术，利用深度和相机变换矩阵等信息实现多视角联合优化，同时采用两阶段训练策略和混合训练技术提高模型的生成图像质量，实验结果表明，本方法达到了最先进的性能水平。

Apr, 2022

VFusion3D: 从视频扩散模型中学习可扩展的三维生成模型

本论文提出了一种利用预训练视频扩散模型构建可扩展的 3D 生成模型的新范例。通过使用视频扩散模型作为 3D 数据的知识源，通过微调其多视图生成能力，生成一个大规模的合成多视图数据集，从而训练出一个前馈的 3D 生成模型。该模型在近 300 万个合成多视图数据上训练，能够在几秒钟内从单张图像生成一个 3D 资源，并在与当前最先进的前馈 3D 生成模型相比取得了更好的性能，用户 70％的时间更喜欢我们的结果。

Mar, 2024

一个优化框架用于强制实施多视图一致性以在使用预训练文本到图像模型进行 3D 网格着色

一篇介绍了一个优化框架以实现多视角一致性的研究论文，通过四个阶段的处理，生成多个 2D 纹理和相互一致的视图，并进行非刚性对齐与关联，实验结果表明该方法在质量和数量上均显著优于基准方法。

Mar, 2024

MVDream：多视角扩散用于 3D 生成

我们提出 MVDream，这是一个多视图扩散模型，能够根据给定的文本提示生成几何一致的多视图图像。通过利用在大规模 Web 数据集上预训练的图像扩散模型和从 3D 资源渲染的多视图数据集，所得到的多视图扩散模型可以实现 2D 扩散的概括性和 3D 数据的一致性。该模型可以被应用为 3D 生成的多视图先验，通过 Score Distillation Sampling 来解决现有 2D-lifting 方法中的 3D 一致性问题，从而极大地提高了稳定性。最后，我们展示了多视图扩散模型也可以在少量样本设置下进行微调，用于个性化的 3D 生成，即 DreamBooth3D 应用中，在学习主体身份之后可以保持一致性。

Aug, 2023

三维感知视频生成

本文探讨了生成对抗网络 (GANs)，将神经隐式表示与时间感知区别器相结合，发展了一种 GAN 框架，仅用单目视频合成了 3D 视频，能够学习可分解的 3D 结构和运动的丰富嵌入，实现了新的时空渲染视觉效果，同时也能产生与现有 3D 或视频 GANs 相媲美的图像质量。

Jun, 2022

2L3: 将不完美生成的 2D 图像提升到精确的 3D

通过利用内在分解指导、瞬态 - 单模先验指导和视图增强来解决光照不一致、几何不对齐和视图稀疏等问题，我们提出了一种新的 3D 重构框架，该框架能够将多视图图像生成与神经网络基于体积有符号距离函数的单一图像到 3D 对象重建相结合。在各种数据集上评估我们的方法，并在定量和定性评估中展示了其卓越性能，从而在 3D 物体重建方面取得了显著的进展。与最新的最先进方法 Syncdreamer 相比，我们将 Chamfer 距离误差降低了约 36％，将 PSNR 提高了约 30％。

Jan, 2024

基于布局导向的多视角驾驶场景视频生成与潜在扩散模型

通过 DrivingDiffusion 框架，在复杂的城市场景中生成大规模、逼真的多相机自动驾驶视频，无需额外成本。

Oct, 2023

Vivid-ZOO: 多视图视频生成与扩散模型

提出了一种基于扩散模型的新方法，从文本生成以动态三维物体为中心的高质量多视图视频，通过将问题分解为视点空间和时间组件，并引入对齐模块来保证生成的多视图视频的一致性和连贯性，同时解决了二维和多视图数据之间的领域差异。

Jun, 2024