MonoDETR：基于深度引导的 Transformer 用于单目三维物体检测

Mar, 2022

MonoDETR：基于深度引导的 Transformer 用于单目三维物体检测

MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection

Renrui Zhang, Han Qiu, Tai Wang, Ziyu Guo, Xuanzhuo Xu...

TL;DR本研究介绍了一种名为 MonoDETR 的使用深度感知 Transformer 的新型单目三维物体检测框架。通过将物体候选项表示为一组查询，并采用基于注意力的深度编码器生成二维输入图像的非局部深度嵌入，然后提出了一个深度引导的解码器，通过深度交叉关注模块对查询与场景深度特征进行交互，每个物体查询从图像的深度引导区域自适应地估计其三维属性。该系统具有端到端的结构，在 KITTI 基准测试上取得了最新成果，并在广泛的消融研究中证明了该方法的有效性，具有成为未来单目三维物体检测研究的 Transformer 基线的潜力。

Abstract

monocular 3d object detection has long been a challenging task in autonomous driving, which requires to decode 3D predictions solely from a single 2D image. Most existing methods follow conventional 2D object detectors to localize objects based on their centers, and predict 3D attribut

monocular 3d object detection transformer depth-guided kitti benchmark object query

发现论文，激发创造

MonoDTR: 深度感知变换器实现单目 3D 物体检测

提出了一种新颖的端到端深度感知装换网络 MonoDTR，用于解决自动驾驶中单目 3D 物体检测的任务，该网络包括深度感知特征增强模块（DFE）以及深度感知 Transformer 模块（DTR），通过辅助监督学习无需额外计算的深度感知特征，并全局整合上下文和深度感知特征；深度位置编码（DPE）注入深度位置提示到 Transformer 中，并通过实验证明该方法优于现有最先进方法并可实现实时检测。

Mar, 2022

一种用于 3D 物体检测的端到端 Transformer 模型

3DETR 是一种基于 Transformer 的端到端目标检测模型，适用于 3D 点云，相较于现有的检测方法，它需要最少的修改，可以通过将 3D 领域知识整合进去得到进一步的改进，在 ScanNetV2 数据集上，相比于 VoteNet 基线具有 9.5% 更好的性能，并且适用于其他 3D 任务。

Sep, 2021

MonoDETRNext：下一代准确高效的单目三维物体检测方法

基于单目视觉的三维物体检测在各个领域都十分重要，然而现有方法在准确性和计算效率方面面临着重大挑战。在 2D 检测和深度估计方面取得成功的策略基础上，我们提出了 MonoDETRNext，旨在实现优化的准确性和处理速度的平衡。我们的方法包括开发高效的混合视觉编码器，增强深度预测机制，并引入创新的查询生成策略，辅以先进的深度预测器。MonoDETRNext 基于 MonoDETR，并引入了两个变体：MonoDETRNext-F 注重速度，MonoDETRNext-A 注重精度。我们认为 MonoDETRNext 建立了单目三维物体检测的新基准，并为未来的研究开辟了新方向。我们进行了详尽的评估，证明了该模型在性能上优于现有解决方案。值得注意的是，MonoDETRNext-A 在 KITTI 测试基准上的 AP3D 指标相比 MonoDETR 提高了 4.60%，而 MonoDETRNext-F 则提高了 2.21%。此外，MonoDETRNext-F 的计算效率略高于其前身。

May, 2024

基于 Transformer 的目标检测

本文提出基于 Transformer 的新方法 O²DETR，实现了复杂的有方向物体检测，无需旋转锚点，其性能表现明显优于 Faster R-CNN 和 RetinaNet。

Jun, 2021

使用 Transformer 进行端到端的目标检测

该研究提出了一种新方法，将目标检测作为直接集合预测问题进行处理，主要采用基于集合的全局损失和 Transformer 编码器 - 解码器架构构建 DETR 模型，能够高效地完成目标检测和全景分割任务，相较于许多现代检测器，DETR 模型概念简单且不需要专门的库。

May, 2020

通过 3D 到 2D 查询从多视角图像中进行 3D 物体检测

提出了一种基于多摄像头的 3D 对象检测框架，使用基于上下文注意力的网络，直接在 3D 空间中进行边界框的预测，实现了全球最佳性能。

Oct, 2021

M3DeTR：基于 Transformer 的多表征、多尺度、互相关联的 3D 物体检测

提出了一种新颖的 3D 物体检测架构 M3DeTR，它将不同的点云表示方法（原始、体素、鸟瞰图）和不同的特征尺度结合在一起，并基于多尺度特征金字塔来模型点云之间的相互关系。通过大量的消融实验，突出了特征尺度和表示方式融合，以及模型点云之间的相互关系的好处。在 KITTI 3D 物体检测数据集和 Waymo 开放数据集中取得了最先进的性能表现，并在一些类别中排名第一。

Apr, 2021

用 Transformer 进行的多目标追踪的对比学习

通过引入实例级对比损失、修订的采样策略和轻量级分配方法，我们展示了如何将 DETR 转化为 MOT 模型，学习目标的外观并保留检测能力，其性能在具有挑战性的 BDD100K 数据集上超过了先前的最新技术水平 2.6 mMOTA，并在 MOT17 数据集上与现有的基于 transformer 的方法相媲美。

Nov, 2023

S$^3$-MonoDETR: 基于形状和尺度感知的单目三维物体检测的可变形 Transformer

该研究论文提出了一种新的监督形状与尺度感知变形注意力模块（S$^3$-DA），用于单目三维物体检测，通过利用视觉和深度特征生成具有不同形状和尺度的多样局部特征，并同时预测相应的匹配分布，为每个查询点施加有价值的形状与尺度感知，从而有效地估计属于任何类别的查询点的感受野，提高了检测准确性。

Sep, 2023

基于 Transformer 的双目图像立体感知三维物体检测

本文提出 TS3D，一种基于 Transformer 的立体感知 3D 物体检测器，其中包括一种新颖的视差位置编码模型（DAPE）和 Stereo Reserving Feature Pyramid Network（SRFPN），使其在 KITTI 测试集上取得了 41.29％的平均精度。

Apr, 2023