MonoDETRNext：下一代准确高效的单目三维物体检测方法

May, 2024

MonoDETRNext：下一代准确高效的单目三维物体检测方法

MonoDETRNext: Next-generation Accurate and Efficient Monocular 3D Object Detection Method

Pan Liao, Feng Yang, Di Wu, Liu Bo

TL;DR基于单目视觉的三维物体检测在各个领域都十分重要，然而现有方法在准确性和计算效率方面面临着重大挑战。在 2D 检测和深度估计方面取得成功的策略基础上，我们提出了 MonoDETRNext，旨在实现优化的准确性和处理速度的平衡。我们的方法包括开发高效的混合视觉编码器，增强深度预测机制，并引入创新的查询生成策略，辅以先进的深度预测器。MonoDETRNext 基于 MonoDETR，并引入了两个变体：MonoDETRNext-F 注重速度，MonoDETRNext-A 注重精度。我们认为 MonoDETRNext 建立了单目三维物体检测的新基准，并为未来的研究开辟了新方向。我们进行了详尽的评估，证明了该模型在性能上优于现有解决方案。值得注意的是，MonoDETRNext-A 在 KITTI 测试基准上的 AP3D 指标相比 MonoDETR 提高了 4.60%，而 MonoDETRNext-F 则提高了 2.21%。此外，MonoDETRNext-F 的计算效率略高于其前身。

Abstract

monocular vision-based 3d object detection is crucial in various sectors, yet existing methods face significant challenges in terms of accuracy and computational efficiency. Building on the successful strategies in 2D detection and →

monocular vision-based 3d object detection monodetrnext precision processing speed depth estimation

发现论文，激发创造

MonoDETR：基于深度引导的 Transformer 用于单目三维物体检测

本研究介绍了一种名为 MonoDETR 的使用深度感知 Transformer 的新型单目三维物体检测框架。通过将物体候选项表示为一组查询，并采用基于注意力的深度编码器生成二维输入图像的非局部深度嵌入，然后提出了一个深度引导的解码器，通过深度交叉关注模块对查询与场景深度特征进行交互，每个物体查询从图像的深度引导区域自适应地估计其三维属性。该系统具有端到端的结构，在 KITTI 基准测试上取得了最新成果，并在广泛的消融研究中证明了该方法的有效性，具有成为未来单目三维物体检测研究的 Transformer 基线的潜力。

Mar, 2022

MonoDTR: 深度感知变换器实现单目 3D 物体检测

提出了一种新颖的端到端深度感知装换网络 MonoDTR，用于解决自动驾驶中单目 3D 物体检测的任务，该网络包括深度感知特征增强模块（DFE）以及深度感知 Transformer 模块（DTR），通过辅助监督学习无需额外计算的深度感知特征，并全局整合上下文和深度感知特征；深度位置编码（DPE）注入深度位置提示到 Transformer 中，并通过实验证明该方法优于现有最先进方法并可实现实时检测。

Mar, 2022

MonoNext：基于 ConvNext 的 3D 单目目标检测

这篇论文介绍了一种名为 MonoNext 的不同的多任务学习方法，利用空间网格来对场景中的物体进行映射，它采用了基于 ConvNext 网络的简单方法，并且只需要有 3D 边界框标注的数据，通过在 KITTI 数据集上的实验，MonoNext 取得了较高的精度和具有竞争力的性能，而且通过添加更多训练数据，MonoNext 的准确度进一步提高。

Aug, 2023

物体不同：灵活的单目三维物体检测

提出了一种灵活的单目 3D 物体检测框架，它显式地分离了长尾切断物体，并自适应地组合多种方法来估计物体深度。

Apr, 2021

通过 3D 到 2D 查询从多视角图像中进行 3D 物体检测

提出了一种基于多摄像头的 3D 对象检测框架，使用基于上下文注意力的网络，直接在 3D 空间中进行边界框的预测，实现了全球最佳性能。

Oct, 2021

一种用于 3D 物体检测的端到端 Transformer 模型

3DETR 是一种基于 Transformer 的端到端目标检测模型，适用于 3D 点云，相较于现有的检测方法，它需要最少的修改，可以通过将 3D 领域知识整合进去得到进一步的改进，在 ScanNetV2 数据集上，相比于 VoteNet 基线具有 9.5% 更好的性能，并且适用于其他 3D 任务。

Sep, 2021

单目三维物体检测的全面测试时适应

基于单目视觉的三维物体检测中，本文提出了一种新的自适应方法 —— 全测试阶段自适应，在无标签测试数据上通过处理潜在的数据分布转移来自适应已经训练好的模型。通过可靠性驱动的自适应策略和噪声保护自适应策略，该方法解决了由异常测试数据引起的物体漏检问题，实验结果表明在离散分布的测试场景中 MonoTTA 模型相对于 Mono 3Det 模型带来了显著的性能提升，KITTI 上平均获得了 190% 的提升，nuScenes 上获得了 198% 的提升。

May, 2024

Graph-DETR3D: 重新思考重叠区域的多视角三维物体检测

本文介绍了一种利用图结构学习的方法 --Graph-DETR3D-- 用于自动聚合多视角图像信息，以提高 3D 物体检测的性能。我们证明了在不同区域定位物体时，边缘区域的 “截断实例” 是影响 DETR3D 表现的主要瓶颈之一。通过采用我们提出的深度无关多尺度训练策略和动态 3D 图技术，相较于其他图像视角 3D 物体检测器的表现，Graph-DETR3D 获得了更好的表现。

Apr, 2022

M3DeTR：基于 Transformer 的多表征、多尺度、互相关联的 3D 物体检测

提出了一种新颖的 3D 物体检测架构 M3DeTR，它将不同的点云表示方法（原始、体素、鸟瞰图）和不同的特征尺度结合在一起，并基于多尺度特征金字塔来模型点云之间的相互关系。通过大量的消融实验，突出了特征尺度和表示方式融合，以及模型点云之间的相互关系的好处。在 KITTI 3D 物体检测数据集和 Waymo 开放数据集中取得了最先进的性能表现，并在一些类别中排名第一。

Apr, 2021

使用 Transformer 进行端到端的目标检测

该研究提出了一种新方法，将目标检测作为直接集合预测问题进行处理，主要采用基于集合的全局损失和 Transformer 编码器 - 解码器架构构建 DETR 模型，能够高效地完成目标检测和全景分割任务，相较于许多现代检测器，DETR 模型概念简单且不需要专门的库。

May, 2020