SSD-MonoDTR: 监督式尺度受限可变形 Transformer 用于单目 3D 物体检测

May, 2023

SSD-MonoDTR: 监督式尺度受限可变形 Transformer 用于单目 3D 物体检测

SSD-MonoDTR: Supervised Scale-constrained Deformable Transformer for Monocular 3D Object Detection

Xuan He, Fan Yang, Jiacheng Lin, Haolong Fu, Jin Yuan...

TL;DR本篇研究提出了一种新的监督型缩放限制可变注意力机制（SSDA），通过多重缩放控制预先设定的多个掩膜，利用深度和视觉特征为每个查询预测本地特征，从而生成更加准确的接收域来支持强大的查询特征生成，SSDA 在 KITTI 数据集上较现有方法良好表现且取得了 SOTA 结果。

Abstract

transformer-based methods have demonstrated superior performance for monocular 3d object detection recently, which predicts 3D attributes from a single 2D image. Most existing →

monocular 3d object detection transformer-based methods supervised scale-constrained deformable attention query feature generation weighted scale matching

发现论文，激发创造

S$^3$-MonoDETR: 基于形状和尺度感知的单目三维物体检测的可变形 Transformer

该研究论文提出了一种新的监督形状与尺度感知变形注意力模块（S$^3$-DA），用于单目三维物体检测，通过利用视觉和深度特征生成具有不同形状和尺度的多样局部特征，并同时预测相应的匹配分布，为每个查询点施加有价值的形状与尺度感知，从而有效地估计属于任何类别的查询点的感受野，提高了检测准确性。

Sep, 2023

MonoDETR：基于深度引导的 Transformer 用于单目三维物体检测

本研究介绍了一种名为 MonoDETR 的使用深度感知 Transformer 的新型单目三维物体检测框架。通过将物体候选项表示为一组查询，并采用基于注意力的深度编码器生成二维输入图像的非局部深度嵌入，然后提出了一个深度引导的解码器，通过深度交叉关注模块对查询与场景深度特征进行交互，每个物体查询从图像的深度引导区域自适应地估计其三维属性。该系统具有端到端的结构，在 KITTI 基准测试上取得了最新成果，并在广泛的消融研究中证明了该方法的有效性，具有成为未来单目三维物体检测研究的 Transformer 基线的潜力。

Mar, 2022

MDHA: 多尺度可变形变压器与混合锚点的多视角三维目标检测

多视角 3D 目标检测是自动驾驶系统的重要组成部分，本文提出了一种名为 MDHA 的稀疏查询框架，使用多视角、多尺度输入构建自适应的 3D 输出提案，通过混合锚点的方式来解决数据集特定初始化和计算效率问题，并成功优于现有基线方法。

Jun, 2024

MonoDTR: 深度感知变换器实现单目 3D 物体检测

提出了一种新颖的端到端深度感知装换网络 MonoDTR，用于解决自动驾驶中单目 3D 物体检测的任务，该网络包括深度感知特征增强模块（DFE）以及深度感知 Transformer 模块（DTR），通过辅助监督学习无需额外计算的深度感知特征，并全局整合上下文和深度感知特征；深度位置编码（DPE）注入深度位置提示到 Transformer 中，并通过实验证明该方法优于现有最先进方法并可实现实时检测。

Mar, 2022

分离和增强：用于尺度不变自监督单目深度估计的双引擎

本研究提出了一种自监督的单目深度估计方法，通过剥离具有尺度敏感性的特征和采取仿真相机缩放的数据增强方法来提高尺度不变性，并使用动态跨尺度交叉注意力模块进一步加强尺度不变特征，在 KITTI 数据集上取得了目前最佳性能。

Oct, 2022

重新思考半监督目标检测对于航空影像中的尺度不平衡

本文研究了半监督目标检测在航空图像中存在的尺度不平衡问题，并提出了适应性阈值判别、尺度再平衡标签分配和教师引导负样本学习等关键组件，以实现尺度无偏学习。通过对 DOTA-v1.5 基准上的广泛实验，证明了我们提出的方法在性能上优于现有竞争方法。

Oct, 2023

3D Former: 基于单目视觉的 3D SDF 变换器场景重建

本文提出了一种基于 SDF 转换网络、稀疏窗口注意力模块和上下文注意力网络的三维变换器网络，用于更好地聚合三维特征，提高单目场景重建的精度和完整性。实验结果表明，该网络在多个数据集上优于现有方法，能够提高网格的准确性和完整性。

Jan, 2023

用于单目视觉里程计尺度估计的密集预测变换器

本文使用密集预测变换器模型进行尺度估计，解决单目视觉测距系统中尺度漂移问题，通过深度图的准确估计，取得竞争性的最新成果。

Oct, 2022

3D 半监督目标检测的分层监督和洗牌数据增强

介绍了一种新颖的 hierarchical supervision 和 shuffle data augmentation 方法，它通过设计动态双阈值策略产生更合理的监督信号来加强学生网络的训练，并通过洗牌数据增强策略来增强学生网络的功能特征。还展示了该方法在不同的数据集上都表现优异。

Apr, 2023

Semi-DETR: 基于检测 Transformer 的半监督目标检测

我们提出了 Semi-DETR，一个基于 transformer 的端到端半监督物体检测器，通过阶段混合匹配策略、跨视图查询一致性方法和基于代价的伪标签挖掘模块解决 DETR 中存在的问题，并在 COCO 和 Pascal VOC 基准数据集上的所有 SSOD 设置中进行的实验表明，我们的方法优于所有现有方法。

Jul, 2023