越多的2D视觉，越多的3D感知

Apr, 2024

The More You See in 2D, the More You Perceive in 3D

Xinyang Han, Zelin Gao, Angjoo Kanazawa, Shubham Goel, Yossi Gandelsman

TL;DR基于人类基于过去经验从2D图像中推断出3D结构，并随着观察更多图像改进3D理解的行为，我们引入了SAP3D，这是一个从任意数量的非约束图像进行3D重建和新视角合成的系统。给定一些非约束图像，我们通过测试时微调来调整预训练的视图条件扩散模型和图像的摄像机位姿。调整后的扩散模型和获得的摄像机位姿被用作3D重建和新视角合成的特定实例先验。我们通过实际图像和标准合成基准测试了我们的系统。我们的消融研究证实了这种适应行为对于更准确的3D理解至关重要。

Abstract

Humans can infer 3D structure from 2D images of an object based on past experience and improve their 3D understanding as they see more images. Inspired by this behavior, we introduce SAP3D, a system for 3d reconstruction and →

发现论文，激发创造

扩散模型的新视角综合

我们提出了一种名为3DiM的扩散模型，用于3D新视图合成，能够将单个输入视图转换为许多视图上的一致且清晰的完成。 3DiM的核心组成部分是姿态条件的图像到图像扩散模型，它以源视图及其姿态作为输入，并将新姿态的视图作为输出生成。

Oct, 2022

单级扩散NeRF：一种统一的三维生成和重建方法

本文提出了一种称为SSDNeRF的新方法，它使用表达能力强的Diffusion Model从多视图图像中学习神经辐射场（NeRF）的可推广先验，实现3D重建和先验学习的同时, 证明了该方法在无条件生成和单/稀疏视图3D重建等任务上具有与任务特定方法媲美或优于其的鲁棒性结果。

Apr, 2023

视图集扩散：从二维数据生成(0-)图像条件下的三维生成模型

借助Viewset Diffusion框架，可以从2D数据中训练图像条件化的3D生成模型，从而解决单视图3D重建中的歧义问题，并通过对多视图图像集的去噪扩展了3D真实数据的可用性，通过仅渲染3张图片，我们的模型可以执行3D生成和单视图重建。

Jun, 2023

无需针对每个形状优化，45秒内将任意单张图像转换为3D网格

该研究提出了一种新的方法，使用单个图像进行3D重建，生成了一个完整的360度3D纹理网格，改进于现有方法，具有更好的几何形状和一致性。

Jun, 2023

Sparse3D：基于稀疏视角的多视点一致性扩散物体重建

Sparse3D是一种针对稀疏视角输入的新型三维重建方法，通过从强大的图像扩散模型提取2D先验，使得我们的综合模型在面对开放世界对象时仍能始终保持高质量的结果，并借助C-SDS技术来增强细节，实验证明了我们的方法在NVS和几何重建方面优于之前的最先进工作。

Aug, 2023

视角文本倒置：通过预训练2D扩散模型释放新颖视图综合

通过冻结的扩散模型，我们的方法ViewNeTI可以控制生成图像中物体的三维观点，以解决新颖视角合成的问题，并且拥有良好的语义细节和照片般逼真的单视图新颖视角合成预测。

Sep, 2023

ViVid-1-to-3：带视频扩散模型的新视角合成

利用预训练的视频扩散模型，我们演示了一种非常简单的方法，通过合成互补视角的扫描视频来生成新视角，从而实现高度一致的新视图合成。

Dec, 2023

UpFusion：基于未姿态稀疏视角观测的新视角扩散

UpFusion是一个系统，可以在没有对应姿态信息的情况下，根据稀疏的参考图像执行新视角合成和推断对象的三维表示。

Dec, 2023

MVDiffusion++：密集高分辨率多视图扩散模型用于单视或稀疏视角的三维对象重建

本研究提出了一种名为MVDiffusion++的神经架构，用于3D物体重建，通过一张或几张图像生成物体的密集高分辨率视图。MVDiffusion++采用了两个令人惊讶地简单的想法，即“无姿态架构”，其中2D潜在特征之间的标准自注意力学习了在任意数量的条件和生成视图之间的3D一致性，而无需明确使用相机姿态信息，并且“视图丢弃策略”在训练期间丢弃了大量输出视图，减少了训练时的内存占用，并且在测试时实现了密集高分辨率视图合成。我们使用Objaverse进行训练并使用Google扫描的物体进行评估，采用了标准的新视图合成和3D重建度量，其中MVDiffusion++显著优于当前的技术水平。我们还通过将MVDiffusion++与文本到图像生成模型相结合，展示了一个文本到3D的应用示例。

Feb, 2024

Ouroboros3D: 图像到三维生成的三维感知递归扩散

现有的单图像到3D生成方法通常涉及两个阶段的过程，首先生成多视图图像，然后使用这些图像进行3D重建。然而，分别训练这两个阶段会导致推理阶段的数据偏差，从而影响重建结果的质量。我们引入了一个统一的3D生成框架，命名为Ouroboros3D，它将基于扩散的多视图图像生成和3D重建集成到递归扩散过程中。在我们的框架中，通过自我条件机制联合训练这两个模块，使它们能够适应彼此的特征以进行稳健的推理。在多视图去噪过程中，多视图扩散模型使用由重建模块在上一时间步骤渲染的具有3D感知的地图作为附加条件。具有3D感知反馈的递归扩散框架统一了整个过程并改进了几何一致性。实验证明，我们的框架优于将这两个阶段分离和将它们合并在推理阶段的现有方法。

Jun, 2024