Keonhee Han, Dominik Muhle, Felix Wimbauer, Daniel Cremers
TL;DR通过融合多个图像的密度场,我们提出了一种更准确的单视图场景重建方法,特别适用于遮挡区域。
Abstract
Inferring scene geometry from images via structure from motion is a
long-standing and fundamental problem in computer vision. While classical
approaches and, more recently, depth map predictions only focus on the
本文介绍了一种利用深度神经网络复制传统的 local depth maps calculation 和 global depth maps fusion 两步骤框架,以改善对 3D 场景重建精度和可解释性的计算机视觉任务方法。此外,作者还提出了一种称为 PosedConv 的旋转不变的 3D 卷积核,用于提高从非常不同视角获取的图像之间的匹配效率。作者在 ScanNet 数据集上进行了大量实验证明提出的方法在深度神经网络和传统计算机视觉技术中具有竞争力。