未知姿态下的多视角到3D的生成性提升:将NeRF包装在扩散中

Jun, 2024

未知姿态下的多视角到3D的生成性提升:将NeRF包装在扩散中

Generative Lifting of Multiview to 3D from Unknown Pose: Wrapping NeRF inside Diffusion

Xin Yuan, Rana Hanocka, Michael Maire

TL;DR我们将来自未知姿态的多视图重建问题作为一个生成建模问题。通过一组未标注的场景的2D图像，我们的方法同时学习了一个网络来预测从2D图像输入中的相机姿态，并学习了用于3D场景的神经辐射场（NeRF）的参数。通过在标准去噪目标下使用去噪扩散概率模型（DDPM）将姿态预测网络和NeRF结合在一起并训练系统来推动学习进展。我们的框架要求系统通过预测图像的姿态并渲染NeRF来完成去噪输入2D图像的任务。学习去噪因此迫使系统同时学习底层的3D NeRF表示和从图像到摄像机外参数的映射。为了促进后者，我们设计了一个自定义的网络架构来将姿态表示为一个分布，从而在仅进行去噪训练时具备发现视图对应关系的隐式能力。这种技术允许我们的系统成功构建NeRFs，并在竞争方法失败的具有挑战性的场景中使用。在训练结束时，我们学习到的NeRF可以被提取并用作3D场景模型；我们的完整系统可以用于采样新的相机姿态并生成新的视角图像。

Abstract

We cast multiview reconstruction from unknown pose as a generative modeling problem. From a collection of unannotated 2D images of a scene