自监督单目深度估计的三维排列

May, 2019

PackNet-SfM: 3D Packing for Self-Supervised Monocular Depth Estimation

Vitor Guizilini, Rares Ambrus, Sudeep Pillai, Adrien Gaidon

TL;DR本文提出了一种新的自监督单目深度估计方法，结合几何学和一种新的深度学习网络PackNet，使用无标签的单目视频进行学习。我们的方法使用了新的对称打包和解包块以共同学习使用 3D 卷积压缩和解压缩保留细节的表示。虽然是自监督的，但我们的方法在 KITTI 基准测试中优于其他自监督、半监督和全监督方法。PackNet 中的三维归纳偏差使其能够随着输入分辨率和参数数量的扩展而扩展，而不会过拟合，在 NuScenes 数据集等域外数据上具有更好的泛化性能。此外，此方法不需要在 ImageNet 上进行大规模监督预训练，并且可以实时运行。最后，我们发布了 DDAD（用于自动驾驶的稠密深度）数据集，该数据集使用全球自动驾驶车队上安装的高密度 LiDAR 产生的长距离和更加密集的地面真实深度进行评估。

Abstract

Densely estimating the depth of a scene from a single image is an ill-posed inverse problem that is seeing exciting progress with self-supervision from strong geometric cues, in particular from training using stereo imagery. In this work, we investigate the more challenging structure-from-motion (SfM) setting, learning purely from monocular videos. We propos