TL;DRVampire 通过体积渲染在多摄像头感知任务中调控中间密集的 3D 特征,并在各种下游感知任务中展现出与现有最先进方法相竞争的能力。
Abstract
multi-camera perception tasks have gained significant attention in the field
of autonomous driving. However, existing frameworks based on Lift-Splat-Shoot
(LSS) in the multi-camera setting cannot produce suitable dense
通过体积渲染和专注深度融合先验进行多视角 RGBD 图像学习神经隐式表示,以准确进行 3D 重建。该方法利用截断有符号距离函数(TSDF)从所有可用的深度图像融合并感知粗糙三维结构,解决了通过体积渲染进行几何推断的不完整深度和被遮挡结构的问题。通过引入注意机制,直接将深度融合先验与学习到的占用情况作为神经隐式函数,该机制可以用于整个场景或同时定位和映射(SLAM)背景下的部分场景。在合成和真实世界的广泛基准测试中,该方法超越了最新的神经隐式方法。