3M3D: 多视角、多路径、多表征 3D 目标检测
该论文研究了自动驾驶场景下高精度的 3D 物体检测问题。其提出了 Multi-View 3D networks(MV3D)框架,该框架采用多传感器融合技术,将 LIDAR 点云和 RGB 图像作为输入,并预测有方向的 3D 界限框。实验表明,该方法在 3D 定位和 3D 检测任务方面的表现优于现有技术约 25%和 30%,在 2D 检测中也表现出显著的技术优势。
Nov, 2016
本研究提出了一种利用分割信息指导检测过程的多任务框架,该框架联合执行三维物体检测和全景分割,可利用多视角信息解决每个投影视图的缺陷,并通过前景语义信息和中心密度热力图来提示物体的可能框中心位置。在 nuScenes 数据集上进行的大量实验表明,该方法提供了显著的性能提升,基于单级 CenterPoint 3D 物体检测网络的所提出方法在 nuScenes 3D 检测基准上取得了 67.3 NDS 的最新性能。
Mar, 2022
在自动驾驶中,相较于 2D 检测,3D 检测能够提供更精确的信息用于路径规划和运动估计。然而,由于缺乏几何信息,单一和多视角图像以及来自相机的深度图在检测精度上相对较低。本文提出了 SeSame:一种基于点的语义特征的新表达方法,以确保基于 LiDAR 的 3D 检测具有充足的语义信息。实验证明,我们的方法在 KITTI 物体检测基准测试中在不同难度级别和车辆上优于以前的最先进方法。
Mar, 2024
提出了一种基于多摄像头的 3D 对象检测框架,使用基于上下文注意力的网络,直接在 3D 空间中进行边界框的预测,实现了全球最佳性能。
Oct, 2021
本研究介绍了一种基于多视角几何的 3D 物体检测方法 VEDet,通过视点感知和等变性,利用查询式转换器系统将三维场景转化为位置编码来提高目标定位精度,并在损失层面进行多视角一致性规范化,通过丰富的几何线索提高性能以优化现有方法。
Mar, 2023
通过与 2D 相机平面结果对齐的方法,本研究提出了一种新颖的多相机三维目标检测方法,确保持一致且准确的检测结果。该方法通过视角校正,将鸟瞰视图特征渲染为多视图地图,并纠正了这些地图的透视偏差,利用隐含的前景体来连接相机与鸟瞰视图平面。该两步过程促进了视角和上下文无关特征的学习,对于准确地检测不同视角、相机参数和环境条件下的目标至关重要。此外,该方法采用基于模型的不可知的方法,而不需要额外的推理成本和对真实场景注释,从而促进了各种模型的无缝集成和简化部署。实验结果在领域泛化和无监督领域自适应方面明确展示了其有效性。
Oct, 2023
提出了一种新颖的 3D 物体检测架构 M3DeTR,它将不同的点云表示方法(原始、体素、鸟瞰图)和不同的特征尺度结合在一起,并基于多尺度特征金字塔来模型点云之间的相互关系。通过大量的消融实验,突出了特征尺度和表示方式融合,以及模型点云之间的相互关系的好处。在 KITTI 3D 物体检测数据集和 Waymo 开放数据集中取得了最先进的性能表现,并在一些类别中排名第一。
Apr, 2021
MS$^{2}$3D 是一个两阶段的三维检测框架,利用小尺寸的体素提取细粒度的局部特征和大尺寸的体素捕捉长程局部特征,通过多尺度语义特征点构建三维特征层并计算特征点与目标质心的偏移,以提高特征聚合的效率,在 KITTI 数据集和 ONCE 数据集上验证了该方法的有效性。
Aug, 2023