MVD-Fusion: 单视角 3D 通过深度一致的多视角生成

Apr, 2024

MVD-Fusion: 单视角 3D 通过深度一致的多视角生成

MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation

PDF

Hanzhe Hu, Zhizhuo Zhou, Varun Jampani, Shubham Tulsiani

TL;DR通过对多视角一致的 RGB-D 图像进行生成建模，我们提出了 MVD-Fusion：一种用于通过单视角推理 3D 的方法。

Abstract

We present mvd-fusion: a method for single-view 3d inference via generative modeling of multi-view-consistent →

mvd-fusion 3d inference generative modeling multi-view-consistent rgb-d images

发现论文，激发创造

VideoMV：基於大型視頻生成模型的一致多視角生成

使用来自视频生成模型的图像，通过引入一种新的框架以及 3D 感知降噪采样策略，可以更快速地生成密集视图，提高图像的质量和一致性。

Mar, 2024

MVDD：多视角深度扩散模型

利用多视角深度，通过 MVDD 扩展扩散模型以生成高质量的 3D 形状，并通过增强视图之间的一致性及深度图对齐来提供卓越的 3D 形状生成和深度完成能力，以及作为下游任务的 3D 先验。

Dec, 2023

2L3: 将不完美生成的 2D 图像提升到精确的 3D

通过利用内在分解指导、瞬态 - 单模先验指导和视图增强来解决光照不一致、几何不对齐和视图稀疏等问题，我们提出了一种新的 3D 重构框架，该框架能够将多视图图像生成与神经网络基于体积有符号距离函数的单一图像到 3D 对象重建相结合。在各种数据集上评估我们的方法，并在定量和定性评估中展示了其卓越性能，从而在 3D 物体重建方面取得了显著的进展。与最新的最先进方法 Syncdreamer 相比，我们将 Chamfer 距离误差降低了约 36％，将 PSNR 提高了约 30％。

Jan, 2024

MVD$^2$: 多视角扩散的高效多视角三维重建

MVD$^2$ 是一种有效的三维重建方法，通过聚合图像特征并将其解码成三维网格，改善了多视角扩散生成图像的三维生成质量，且在不同的多视角扩散方法下具有快速和稳健的性能。

Feb, 2024

MVDiff: 可扩展灵活的多视图扩散用于从单视图进行 3D 物体重建

通过引入情景表示变换器和视图条件扩散模型，该论文提出了一个通用框架，用于从单个图像生成一致的多视图图像。通过多视图注意力和极线几何约束来确保三维一致性，该模型能够从仅一个图像输入生成超过基准方法在评估指标（包括 PSNR、SSIM 和 LPIPS）方面的三维网格。

May, 2024

MVDream：多视角扩散用于 3D 生成

我们提出 MVDream，这是一个多视图扩散模型，能够根据给定的文本提示生成几何一致的多视图图像。通过利用在大规模 Web 数据集上预训练的图像扩散模型和从 3D 资源渲染的多视图数据集，所得到的多视图扩散模型可以实现 2D 扩散的概括性和 3D 数据的一致性。该模型可以被应用为 3D 生成的多视图先验，通过 Score Distillation Sampling 来解决现有 2D-lifting 方法中的 3D 一致性问题，从而极大地提高了稳定性。最后，我们展示了多视图扩散模型也可以在少量样本设置下进行微调，用于个性化的 3D 生成，即 DreamBooth3D 应用中，在学习主体身份之后可以保持一致性。

Aug, 2023

多视角一致性插值去噪视图融合

通过扩散模型进行新视图合成表现出了出色的潜力，然而这些常见方法中图像生成的独立过程导致在保持多视图一致性方面存在挑战。为了解决这个问题，我们引入了 ViewFusion，这是一种新颖的、无需训练的算法，可以无缝地集成到现有的预先训练好的扩散模型中。我们的方法采用自回归的方式，隐含地利用之前生成的视图作为下一个视图生成过程的上下文，确保在新视图生成过程中具有稳健的多视图一致性。通过通过插值去噪将已知视图信息融合到扩散过程中，我们的框架成功地将单视图条件模型扩展为能在多视图条件设置下工作，无需额外的微调。广泛的实验结果表明 ViewFusion 在生成一致且详细的新视图方面的有效性。

Feb, 2024

MV6D: 使用深度点投票网络的 RGB-D 框架多视角 6D 位姿估计

提出了一种名为 MV6D 的多视角 6D 姿态估计方法，该方法使用多个视角的 RGB-D 图像，通过 DenseFusion 层融合每个视角的图像，可以精确预测杂乱场景中所有对象的 6D 姿态.

Aug, 2022

MVDiffusion++：密集高分辨率多视图扩散模型用于单视或稀疏视角的三维对象重建

本研究提出了一种名为 MVDiffusion++ 的神经架构，用于 3D 物体重建，通过一张或几张图像生成物体的密集高分辨率视图。MVDiffusion++ 采用了两个令人惊讶地简单的想法，即 “无姿态架构”，其中 2D 潜在特征之间的标准自注意力学习了在任意数量的条件和生成视图之间的 3D 一致性，而无需明确使用相机姿态信息，并且 “视图丢弃策略” 在训练期间丢弃了大量输出视图，减少了训练时的内存占用，并且在测试时实现了密集高分辨率视图合成。我们使用 Objaverse 进行训练并使用 Google 扫描的物体进行评估，采用了标准的新视图合成和 3D 重建度量，其中 MVDiffusion++ 显著优于当前的技术水平。我们还通过将 MVDiffusion++ 与文本到图像生成模型相结合，展示了一个文本到 3D 的应用示例。

Feb, 2024

SV3D：单图像多视图融合和三维生成的新型潜在视频扩散

我们提出了 Stable Video 3D (SV3D) - 一种用于高分辨率的围绕 3D 对象进行图像到多视图生成的潜在视频扩散模型。

Mar, 2024