TL;DR本文提出了一种名为 MLF-DET 的新颖有效的多级融合网络,用于高性能跨模态 3D 物体检测,它将特征级融合和决策级融合相结合,充分利用图像中的信息。
Abstract
In this paper, we propose a novel and effective multi-level fusion network,
named as MLF-DET, for high-performance cross-modal 3d object detection, which
integrates both the feature-level fusion and decision-leve
该论文研究了自动驾驶场景下高精度的 3D 物体检测问题。其提出了 Multi-View 3D networks(MV3D)框架,该框架采用多传感器融合技术,将 LIDAR 点云和 RGB 图像作为输入,并预测有方向的 3D 界限框。实验表明,该方法在 3D 定位和 3D 检测任务方面的表现优于现有技术约 25%和 30%,在 2D 检测中也表现出显著的技术优势。
提出了基于 Dense Voxel Fusion 的序列融合方法,该方法对于自主车辆应用中的 3D 物体检测具有重要意义。通过直接使用地面真实 3D 边界框标签进行训练,避免使用嘈杂的、特定于检测器的 2D 预测。DVF 在 KITTI 3D 汽车检测基准测试中排名第三,且不引入额外的可训练参数,也不需要使用立体图像或密集深度标签。此外,在 Waymo 开放数据集上,DVF 显著提高了基于体素的方法在 3D 车辆检测方面的性能。