Apr, 2024

越多的2D视觉,越多的3D感知

TL;DR基于人类基于过去经验从2D图像中推断出3D结构,并随着观察更多图像改进3D理解的行为,我们引入了SAP3D,这是一个从任意数量的非约束图像进行3D重建和新视角合成的系统。给定一些非约束图像,我们通过测试时微调来调整预训练的视图条件扩散模型和图像的摄像机位姿。调整后的扩散模型和获得的摄像机位姿被用作3D重建和新视角合成的特定实例先验。我们通过实际图像和标准合成基准测试了我们的系统。我们的消融研究证实了这种适应行为对于更准确的3D理解至关重要。