Apr, 2024

越多的 2D 视觉,越多的 3D 感知

TL;DR基于人类基于过去经验从 2D 图像中推断出 3D 结构,并随着观察更多图像改进 3D 理解的行为,我们引入了 SAP3D,这是一个从任意数量的非约束图像进行 3D 重建和新视角合成的系统。给定一些非约束图像,我们通过测试时微调来调整预训练的视图条件扩散模型和图像的摄像机位姿。调整后的扩散模型和获得的摄像机位姿被用作 3D 重建和新视角合成的特定实例先验。我们通过实际图像和标准合成基准测试了我们的系统。我们的消融研究证实了这种适应行为对于更准确的 3D 理解至关重要。