MonoATT：自适应令牌变换的在线单目三维物体检测

CVPRMar, 2023

MonoATT：自适应令牌变换的在线单目三维物体检测

MonoATT: Online Monocular 3D Object Detection with Adaptive Token Transformer

Yunsong Zhou, Hongzi Zhu, Quan Liu, Shan Chang, Minyi Guo

TL;DR本文提出一种名为 MonoATT 的在线移动单眼 3D 物体检测框架，该框架采用形状和大小不同的异构令牌进行识别，并结合注意力机制和分数网络提高检测准确率，实验证明 MonoATT 在 KITTI 3D 基准上排名第一。

Abstract

mobile monocular 3d object detection (Mono3D) (e.g., on a vehicle, a drone, or a robot) is an important yet challenging task. Existing transformer-based offline Mono3D models adopt grid-based vision tokens, which is suboptimal when using coarse tokens due to the limited available compu

mobile monocular 3d object detection monoatt vision transformer token clustering kitti dataset

发现论文，激发创造

MonoDETR：基于深度引导的 Transformer 用于单目三维物体检测

本研究介绍了一种名为 MonoDETR 的使用深度感知 Transformer 的新型单目三维物体检测框架。通过将物体候选项表示为一组查询，并采用基于注意力的深度编码器生成二维输入图像的非局部深度嵌入，然后提出了一个深度引导的解码器，通过深度交叉关注模块对查询与场景深度特征进行交互，每个物体查询从图像的深度引导区域自适应地估计其三维属性。该系统具有端到端的结构，在 KITTI 基准测试上取得了最新成果，并在广泛的消融研究中证明了该方法的有效性，具有成为未来单目三维物体检测研究的 Transformer 基线的潜力。

Mar, 2022

MonoDTR: 深度感知变换器实现单目 3D 物体检测

提出了一种新颖的端到端深度感知装换网络 MonoDTR，用于解决自动驾驶中单目 3D 物体检测的任务，该网络包括深度感知特征增强模块（DFE）以及深度感知 Transformer 模块（DTR），通过辅助监督学习无需额外计算的深度感知特征，并全局整合上下文和深度感知特征；深度位置编码（DPE）注入深度位置提示到 Transformer 中，并通过实验证明该方法优于现有最先进方法并可实现实时检测。

Mar, 2022

MonoTAKD: 单目三维目标检测的助教知识蒸馏

通过使用单目摄像头传感器进行教学助理知识蒸馏（MonoTAKD），结合了对于 3D 场景几何形状的理解与从单张图像中重构 3D 对象信息，实现了在 KITTI 3D 对象检测基准中的标杆性能。

Apr, 2024

单目三维物体检测的全面测试时适应

基于单目视觉的三维物体检测中，本文提出了一种新的自适应方法 —— 全测试阶段自适应，在无标签测试数据上通过处理潜在的数据分布转移来自适应已经训练好的模型。通过可靠性驱动的自适应策略和噪声保护自适应策略，该方法解决了由异常测试数据引起的物体漏检问题，实验结果表明在离散分布的测试场景中 MonoTTA 模型相对于 Mono 3Det 模型带来了显著的性能提升，KITTI 上平均获得了 190% 的提升，nuScenes 上获得了 198% 的提升。

May, 2024

3DMOTFormer：在线三维多目标跟踪的图形转换器

基于 Transformer 架构构建的学习几何 3D MOT 框架 3DMOTFormer，在进行跟踪检测双向图的基础上，通过边分类进行数据关联，并提出了一种新颖的在线训练策略，通过自回归和递归前向传播以及序列化批量优化来减少训练和推断之间的分布不匹配。

Aug, 2023

AdvMono3D：具有深度感知的鲁棒性对抗式高级单目 3D 物体检测

我们提出了一个名为 DART3D 的鲁棒性深度感知对抗训练方法，用于单目 3D 对象检测，通过设计迭代退化攻击和基于不确定性的残差学习方法，提高了模型对对抗攻击的鲁棒性，在 KITTI 3D 数据集上的实验中，在 Easy，Moderate 和 Hard 设置下的车辆类别的 3D 对象检测评价指标 $AP_{R40}$ 上，相比直接对抗训练方法，分别实现了 4.415%，4.112% 和 3.195% 的提升。

Sep, 2023

MonoNext：基于 ConvNext 的 3D 单目目标检测

这篇论文介绍了一种名为 MonoNext 的不同的多任务学习方法，利用空间网格来对场景中的物体进行映射，它采用了基于 ConvNext 网络的简单方法，并且只需要有 3D 边界框标注的数据，通过在 KITTI 数据集上的实验，MonoNext 取得了较高的精度和具有竞争力的性能，而且通过添加更多训练数据，MonoNext 的准确度进一步提高。

Aug, 2023

空中单目三维物体检测

通过双视图检测系统 DVDET，提出了一种基于地理变形的训练模块，实现了 2D 图像空间和 3D 物理空间的空中单目物体检测，并利用新的数据集 AM3D，证明了模型的可行性及性能。

Aug, 2022

M3DSSD：单目 3D 单阶段物体检测器

本文提出了一个在特征对齐和非对称非局部注意力机制下的单目三维单级物体检测器 (M3DSSD)，借助两步特征对齐来解决现有锚点法单目三维目标检测方法在特征匹配方面的缺陷，并提出了一种新的非对称非局部注意力块，实现更好的物体深度预测效果，并在 KITTI 数据集上取得了显著的成果。

Mar, 2021

S$^3$-MonoDETR: 基于形状和尺度感知的单目三维物体检测的可变形 Transformer

该研究论文提出了一种新的监督形状与尺度感知变形注意力模块（S$^3$-DA），用于单目三维物体检测，通过利用视觉和深度特征生成具有不同形状和尺度的多样局部特征，并同时预测相应的匹配分布，为每个查询点施加有价值的形状与尺度感知，从而有效地估计属于任何类别的查询点的感受野，提高了检测准确性。

Sep, 2023