SSD-MonoDTR: 监督式尺度受限可变形 Transformer 用于单目 3D 物体检测
该研究论文提出了一种新的监督形状与尺度感知变形注意力模块(S$^3$-DA),用于单目三维物体检测,通过利用视觉和深度特征生成具有不同形状和尺度的多样局部特征,并同时预测相应的匹配分布,为每个查询点施加有价值的形状与尺度感知,从而有效地估计属于任何类别的查询点的感受野,提高了检测准确性。
Sep, 2023
本研究介绍了一种名为 MonoDETR 的使用深度感知 Transformer 的新型单目三维物体检测框架。通过将物体候选项表示为一组查询,并采用基于注意力的深度编码器生成二维输入图像的非局部深度嵌入,然后提出了一个深度引导的解码器,通过深度交叉关注模块对查询与场景深度特征进行交互,每个物体查询从图像的深度引导区域自适应地估计其三维属性。该系统具有端到端的结构,在 KITTI 基准测试上取得了最新成果,并在广泛的消融研究中证明了该方法的有效性,具有成为未来单目三维物体检测研究的 Transformer 基线的潜力。
Mar, 2022
多视角 3D 目标检测是自动驾驶系统的重要组成部分,本文提出了一种名为 MDHA 的稀疏查询框架,使用多视角、多尺度输入构建自适应的 3D 输出提案,通过混合锚点的方式来解决数据集特定初始化和计算效率问题,并成功优于现有基线方法。
Jun, 2024
提出了一种新颖的端到端深度感知装换网络 MonoDTR,用于解决自动驾驶中单目 3D 物体检测的任务,该网络包括深度感知特征增强模块(DFE)以及深度感知 Transformer 模块(DTR),通过辅助监督学习无需额外计算的深度感知特征,并全局整合上下文和深度感知特征;深度位置编码(DPE)注入深度位置提示到 Transformer 中,并通过实验证明该方法优于现有最先进方法并可实现实时检测。
Mar, 2022
本研究提出了一种自监督的单目深度估计方法,通过剥离具有尺度敏感性的特征和采取仿真相机缩放的数据增强方法来提高尺度不变性,并使用动态跨尺度交叉注意力模块进一步加强尺度不变特征,在 KITTI 数据集上取得了目前最佳性能。
Oct, 2022
本文研究了半监督目标检测在航空图像中存在的尺度不平衡问题,并提出了适应性阈值判别、尺度再平衡标签分配和教师引导负样本学习等关键组件,以实现尺度无偏学习。通过对 DOTA-v1.5 基准上的广泛实验,证明了我们提出的方法在性能上优于现有竞争方法。
Oct, 2023
本文提出了一种基于 SDF 转换网络、稀疏窗口注意力模块和上下文注意力网络的三维变换器网络,用于更好地聚合三维特征,提高单目场景重建的精度和完整性。实验结果表明,该网络在多个数据集上优于现有方法,能够提高网格的准确性和完整性。
Jan, 2023
介绍了一种新颖的 hierarchical supervision 和 shuffle data augmentation 方法,它通过设计动态双阈值策略产生更合理的监督信号来加强学生网络的训练,并通过洗牌数据增强策略来增强学生网络的功能特征。还展示了该方法在不同的数据集上都表现优异。
Apr, 2023
我们提出了 Semi-DETR,一个基于 transformer 的端到端半监督物体检测器,通过阶段混合匹配策略、跨视图查询一致性方法和基于代价的伪标签挖掘模块解决 DETR 中存在的问题,并在 COCO 和 Pascal VOC 基准数据集上的所有 SSOD 设置中进行的实验表明,我们的方法优于所有现有方法。
Jul, 2023