CAT-Det: 多模式三维物体检测的对比增强变换器
通过引入实例级对比损失、修订的采样策略和轻量级分配方法,我们展示了如何将 DETR 转化为 MOT 模型,学习目标的外观并保留检测能力,其性能在具有挑战性的 BDD100K 数据集上超过了先前的最新技术水平 2.6 mMOTA,并在 MOT17 数据集上与现有的基于 transformer 的方法相媲美。
Nov, 2023
本文中,我们提出了一种改进的两阶段 3D 目标检测框架 CT3D,其中利用高质量的区域提议网络和基于通道的 Transformer 架构来同时执行提议感知嵌入和通道方式的上下文聚合,以获取更准确的目标预测,具有优秀的性能和可伸缩性,尤其是在 KITTI 测试 3D 检测基准中,众车类别的 AP 为 81.77%,优于现有最先进的 3D 检测器。
Aug, 2021
本文提出了一种基于 Point Cross-Attention Transformer 的新型端到端网络结构,将多尺度特征通过两个不同的跨注意力变换器分支进行组合,并引入一种有效的形状分类模型,通过计算不同分支的单类标记与注意图来减少计算负担,实验表明该方法在形状分类,部分分割和语义分割任务中表现优异。
Apr, 2023
本文提出了一种名为 CAT 的 LoCalization and IdentificAtion Cascade Detection Transformer,并采用自适应的伪标签机制,使其能够提高开放世界目标检测、增量目标检测和开放集检测任务的表现。
Jan, 2023
使用 Bridged Transformer 对 3D 与 2D 目标物体区域进行端到端的学习,特别利用对象查询作为 3D 和 2D 空间的桥梁,实现多模式融合,可有效实现从点云和图像中识别物体的边界框,进而提高多视角成像中的物体检测效率。在 SUN RGB-D 和 ScanNetV2 数据集上,Bridged Transformer 优于现有方法。
Oct, 2022
提出了一种新颖的 3D 物体检测架构 M3DeTR,它将不同的点云表示方法(原始、体素、鸟瞰图)和不同的特征尺度结合在一起,并基于多尺度特征金字塔来模型点云之间的相互关系。通过大量的消融实验,突出了特征尺度和表示方式融合,以及模型点云之间的相互关系的好处。在 KITTI 3D 物体检测数据集和 Waymo 开放数据集中取得了最先进的性能表现,并在一些类别中排名第一。
Apr, 2021
通过 FusionViT 模型,在 KITTI 和 Waymo Open 数据集上进行了大量实验,实现了最先进的性能,并且优于仅依赖于相机图像或 Lidar 点云以及最新的多模态图像 - 点云深度融合方法。
Nov, 2023
通过引入两个旨在准确高效地检测和定位三维空间中物体的 3D 物体检测框架,本文目的是解决当前 3D 检测的灵活性和可伸缩性不足的问题,并在 KITTI 数据集和大规模 Waymo 数据集上取得最先进的性能。
Jun, 2024
本研究提出一种名为 X-Trans2Cap 的 3D 密集字幕生成模型,通过跨模态知识转移实现对单模态 3D 字幕生成性能的有效提升,该模型使用 Transformer,并采用师生框架来构建。在实验中,通过对特征进行对齐和融合,提出的方法不仅能够快速地获取 2D 图像中的丰富且嵌入式的外观信息,而且能够在仅仅使用点云作为输入时生成更加忠实的描述性字幕。定性和定量结果证实,X-Trans2Cap 在 ScanRefer 和 Nr3D 数据集上的性能优于现有的最先进水平,分别提高了约 + 21 和约 + 16 absolute CIDEr 分数。
Mar, 2022
本文提出了一个灵活的框架 DetMatch,用于 2D 和 3D 模态的联合半监督学习,通过识别两个传感器检测到的对象,生成更干净、更健壮的伪标签,进一步利用 RGB 图像的更丰富的语义来矫正不正确的 3D 类别预测。该方法在 KITTI 和 Waymo 数据集上取得了比强大的半监督学习方法更好的效果。
Mar, 2022