3M3D: 多视角、多路径、多表征 3D 目标检测

Feb, 2023

3M3D: 多视角、多路径、多表征 3D 目标检测

3M3D: Multi-view, Multi-path, Multi-representation for 3D Object Detection

Jongwoo Park, Apoorv Singh, Varun Bankiti

TL;DR提出了一种基于多视图轴自注意力和局部 ROI 自注意力的多路径多表示 3D 物体检测方法，通过稀疏浮动查询和密集 BEV 查询的多重表示进一步提高了性能，对于自动驾驶系统具有重要意义。

Abstract

3D visual perception tasks based on multi-camera images are essential for autonomous driving systems. Latest work in this field performs 3D object detection by leveraging multi-view images as an input and iteratively enhancing object queries (object proposals) by cross-attending

3d object detection multi-camera images multi-view features self-attention dense bev queries

发现论文，激发创造

用于自动驾驶的多视角三维物体检测网络

该论文研究了自动驾驶场景下高精度的 3D 物体检测问题。其提出了 Multi-View 3D networks（MV3D）框架，该框架采用多传感器融合技术，将 LIDAR 点云和 RGB 图像作为输入，并预测有方向的 3D 界限框。实验表明，该方法在 3D 定位和 3D 检测任务方面的表现优于现有技术约 25％和 30％，在 2D 检测中也表现出显著的技术优势。

Nov, 2016

M&M3D: 多数据集训练和高效网络用于多视角 3D 目标检测

提出了一种使用相机数据和鸟瞰图的多视角三维物体检测的网络结构，通过域适应和可视数据传输解决了当前的关键挑战。

Nov, 2023

3D-MAN: 三维多帧注意力网络用于物体检测

本文介绍了一种名为 3D-MAN 的 3D 多帧注意力网络，通过对多个角度的特征进行聚合从而实现了对复杂数据集的有效检测与识别。

Mar, 2021

基于全景分割引导的 LiDAR 多视角三维物体检测通用框架

本研究提出了一种利用分割信息指导检测过程的多任务框架，该框架联合执行三维物体检测和全景分割，可利用多视角信息解决每个投影视图的缺陷，并通过前景语义信息和中心密度热力图来提示物体的可能框中心位置。在 nuScenes 数据集上进行的大量实验表明，该方法提供了显著的性能提升，基于单级 CenterPoint 3D 物体检测网络的所提出方法在 nuScenes 3D 检测基准上取得了 67.3 NDS 的最新性能。

Mar, 2022

3D 语义分割驱动的三维物体检测表征

在自动驾驶中，相较于 2D 检测，3D 检测能够提供更精确的信息用于路径规划和运动估计。然而，由于缺乏几何信息，单一和多视角图像以及来自相机的深度图在检测精度上相对较低。本文提出了 SeSame：一种基于点的语义特征的新表达方法，以确保基于 LiDAR 的 3D 检测具有充足的语义信息。实验证明，我们的方法在 KITTI 物体检测基准测试中在不同难度级别和车辆上优于以前的最先进方法。

Mar, 2024

通过 3D 到 2D 查询从多视角图像中进行 3D 物体检测

提出了一种基于多摄像头的 3D 对象检测框架，使用基于上下文注意力的网络，直接在 3D 空间中进行边界框的预测，实现了全球最佳性能。

Oct, 2021

多视角 3D 物体检测的观察等变性

本研究介绍了一种基于多视角几何的 3D 物体检测方法 VEDet，通过视点感知和等变性，利用查询式转换器系统将三维场景转化为位置编码来提高目标定位精度，并在损失层面进行多视角一致性规范化，通过丰富的几何线索提高性能以优化现有方法。

Mar, 2023

基于透视矫正的通用多摄像头三维物体检测

通过与 2D 相机平面结果对齐的方法，本研究提出了一种新颖的多相机三维目标检测方法，确保持一致且准确的检测结果。该方法通过视角校正，将鸟瞰视图特征渲染为多视图地图，并纠正了这些地图的透视偏差，利用隐含的前景体来连接相机与鸟瞰视图平面。该两步过程促进了视角和上下文无关特征的学习，对于准确地检测不同视角、相机参数和环境条件下的目标至关重要。此外，该方法采用基于模型的不可知的方法，而不需要额外的推理成本和对真实场景注释，从而促进了各种模型的无缝集成和简化部署。实验结果在领域泛化和无监督领域自适应方面明确展示了其有效性。

Oct, 2023

M3DeTR：基于 Transformer 的多表征、多尺度、互相关联的 3D 物体检测

提出了一种新颖的 3D 物体检测架构 M3DeTR，它将不同的点云表示方法（原始、体素、鸟瞰图）和不同的特征尺度结合在一起，并基于多尺度特征金字塔来模型点云之间的相互关系。通过大量的消融实验，突出了特征尺度和表示方式融合，以及模型点云之间的相互关系的好处。在 KITTI 3D 物体检测数据集和 Waymo 开放数据集中取得了最先进的性能表现，并在一些类别中排名第一。

Apr, 2021

MS23D：一种使用多尺度语义特征点构建 3D 特征层的三维目标检测方法

MS$^{2}$3D 是一个两阶段的三维检测框架，利用小尺寸的体素提取细粒度的局部特征和大尺寸的体素捕捉长程局部特征，通过多尺度语义特征点构建三维特征层并计算特征点与目标质心的偏移，以提高特征聚合的效率，在 KITTI 数据集和 ONCE 数据集上验证了该方法的有效性。

Aug, 2023