Jun, 2024
未知姿态下的多视角到3D的生成性提升:将NeRF包装在扩散中
Generative Lifting of Multiview to 3D from Unknown Pose: Wrapping NeRF
inside Diffusion
TL;DR我们将来自未知姿态的多视图重建问题作为一个生成建模问题。通过一组未标注的场景的2D图像,我们的方法同时学习了一个网络来预测从2D图像输入中的相机姿态,并学习了用于3D场景的神经辐射场(NeRF)的参数。通过在标准去噪目标下使用去噪扩散概率模型(DDPM)将姿态预测网络和NeRF结合在一起并训练系统来推动学习进展。我们的框架要求系统通过预测图像的姿态并渲染NeRF来完成去噪输入2D图像的任务。学习去噪因此迫使系统同时学习底层的3D NeRF表示和从图像到摄像机外参数的映射。为了促进后者,我们设计了一个自定义的网络架构来将姿态表示为一个分布,从而在仅进行去噪训练时具备发现视图对应关系的隐式能力。这种技术允许我们的系统成功构建NeRFs,并在竞争方法失败的具有挑战性的场景中使用。在训练结束时,我们学习到的NeRF可以被提取并用作3D场景模型;我们的完整系统可以用于采样新的相机姿态并生成新的视角图像。