MonoATT:自适应令牌变换的在线单目三维物体检测
本研究介绍了一种名为 MonoDETR 的使用深度感知 Transformer 的新型单目三维物体检测框架。通过将物体候选项表示为一组查询,并采用基于注意力的深度编码器生成二维输入图像的非局部深度嵌入,然后提出了一个深度引导的解码器,通过深度交叉关注模块对查询与场景深度特征进行交互,每个物体查询从图像的深度引导区域自适应地估计其三维属性。该系统具有端到端的结构,在 KITTI 基准测试上取得了最新成果,并在广泛的消融研究中证明了该方法的有效性,具有成为未来单目三维物体检测研究的 Transformer 基线的潜力。
Mar, 2022
提出了一种新颖的端到端深度感知装换网络 MonoDTR,用于解决自动驾驶中单目 3D 物体检测的任务,该网络包括深度感知特征增强模块(DFE)以及深度感知 Transformer 模块(DTR),通过辅助监督学习无需额外计算的深度感知特征,并全局整合上下文和深度感知特征;深度位置编码(DPE)注入深度位置提示到 Transformer 中,并通过实验证明该方法优于现有最先进方法并可实现实时检测。
Mar, 2022
通过使用单目摄像头传感器进行教学助理知识蒸馏(MonoTAKD),结合了对于 3D 场景几何形状的理解与从单张图像中重构 3D 对象信息,实现了在 KITTI 3D 对象检测基准中的标杆性能。
Apr, 2024
基于单目视觉的三维物体检测中,本文提出了一种新的自适应方法 —— 全测试阶段自适应,在无标签测试数据上通过处理潜在的数据分布转移来自适应已经训练好的模型。通过可靠性驱动的自适应策略和噪声保护自适应策略,该方法解决了由异常测试数据引起的物体漏检问题,实验结果表明在离散分布的测试场景中 MonoTTA 模型相对于 Mono 3Det 模型带来了显著的性能提升,KITTI 上平均获得了 190% 的提升,nuScenes 上获得了 198% 的提升。
May, 2024
基于 Transformer 架构构建的学习几何 3D MOT 框架 3DMOTFormer,在进行跟踪检测双向图的基础上,通过边分类进行数据关联,并提出了一种新颖的在线训练策略,通过自回归和递归前向传播以及序列化批量优化来减少训练和推断之间的分布不匹配。
Aug, 2023
我们提出了一个名为 DART3D 的鲁棒性深度感知对抗训练方法,用于单目 3D 对象检测,通过设计迭代退化攻击和基于不确定性的残差学习方法,提高了模型对对抗攻击的鲁棒性,在 KITTI 3D 数据集上的实验中,在 Easy,Moderate 和 Hard 设置下的车辆类别的 3D 对象检测评价指标 $AP_{R40}$ 上,相比直接对抗训练方法,分别实现了 4.415%,4.112% 和 3.195% 的提升。
Sep, 2023
这篇论文介绍了一种名为 MonoNext 的不同的多任务学习方法,利用空间网格来对场景中的物体进行映射,它采用了基于 ConvNext 网络的简单方法,并且只需要有 3D 边界框标注的数据,通过在 KITTI 数据集上的实验,MonoNext 取得了较高的精度和具有竞争力的性能,而且通过添加更多训练数据,MonoNext 的准确度进一步提高。
Aug, 2023
通过双视图检测系统 DVDET,提出了一种基于地理变形的训练模块,实现了 2D 图像空间和 3D 物理空间的空中单目物体检测,并利用新的数据集 AM3D,证明了模型的可行性及性能。
Aug, 2022
本文提出了一个在特征对齐和非对称非局部注意力机制下的单目三维单级物体检测器 (M3DSSD),借助两步特征对齐来解决现有锚点法单目三维目标检测方法在特征匹配方面的缺陷,并提出了一种新的非对称非局部注意力块,实现更好的物体深度预测效果,并在 KITTI 数据集上取得了显著的成果。
Mar, 2021
该研究论文提出了一种新的监督形状与尺度感知变形注意力模块(S$^3$-DA),用于单目三维物体检测,通过利用视觉和深度特征生成具有不同形状和尺度的多样局部特征,并同时预测相应的匹配分布,为每个查询点施加有价值的形状与尺度感知,从而有效地估计属于任何类别的查询点的感受野,提高了检测准确性。
Sep, 2023