近年来,自动驾驶领域取得了显著进展,本文提出一种新颖的修改方法,利用摄像机和激光雷达信息,将额外的分支整合到目标检测网络中,用于在同一车辆中的相邻摄像头之间重新识别物体,同时提高基线 3D 目标检测结果的质量。经过广泛实验验证,该方法在 2D 和 3D 领域的有效性得到证实,结果表明该方法优于传统的非最大抑制(NMS)技术,在重叠区域的车辆类别中改进超过 5%。
该论文研究了自动驾驶场景下高精度的 3D 物体检测问题。其提出了 Multi-View 3D networks(MV3D)框架,该框架采用多传感器融合技术,将 LIDAR 点云和 RGB 图像作为输入,并预测有方向的 3D 界限框。实验表明,该方法在 3D 定位和 3D 检测任务方面的表现优于现有技术约 25%和 30%,在 2D 检测中也表现出显著的技术优势。