Uni3DETR: 统一的三维检测 Transformer
3DETR 是一种基于 Transformer 的端到端目标检测模型,适用于 3D 点云,相较于现有的检测方法,它需要最少的修改,可以通过将 3D 领域知识整合进去得到进一步的改进,在 ScanNetV2 数据集上,相比于 VoteNet 基线具有 9.5% 更好的性能,并且适用于其他 3D 任务。
Sep, 2021
提出了一种新颖的 3D 物体检测架构 M3DeTR,它将不同的点云表示方法(原始、体素、鸟瞰图)和不同的特征尺度结合在一起,并基于多尺度特征金字塔来模型点云之间的相互关系。通过大量的消融实验,突出了特征尺度和表示方式融合,以及模型点云之间的相互关系的好处。在 KITTI 3D 物体检测数据集和 Waymo 开放数据集中取得了最先进的性能表现,并在一些类别中排名第一。
Apr, 2021
基于点注释的半监督 3D 检测方法 Point-DETR3D 通过引入显式的位置查询初始化策略、使用交叉模态可变形 RoI 融合和点引导的自监督学习技术,充分利用点先验,并在仅有 5% 标注数据的情况下显著改进 3D 检测性能。
Mar, 2024
OV-Uni3DETR 是一种统一的开放词汇 3D 检测器,通过循环模态传播实现,具有开放词汇的 3D 检测、模态统一、场景统一的优势,并以超过 6%的性能优势超越了现有方法,在只使用 RGB 图像的情况下性能与以前的基于点云的方法相当甚至更好。
Mar, 2024
使用 DET 框架引入一种高性能的用于点云的 3D 物体检测器,通过引入一种新的 3D 顶点相对位置编码方法,使模型集中于对象附近的点,进一步改进了管道,在 ScanNetV2 基准测试上取得了显著的改进。
Aug, 2023
该论文研究了如何训练一个来自多个数据集的统一 3D 检测器,提出了一种名为 Uni3D 的方法来解决数据级别和分类学级别的差异,证明了该方法的有效性并对进一步的 3D 泛化研究具有启发意义。
Mar, 2023
UVTR 提出了一种统一的框架,旨在提高单模或跨模 3D 检测的准确性和鲁棒性,通过设计模态特定空间,保留体素空间并开发不同传感器的输入,实现几何感知点云和图像的上下文特征的交互,从而在 nuScenes 测试集中获得了领先的性能。
Jun, 2022
本研究介绍了一种名为 MonoDETR 的使用深度感知 Transformer 的新型单目三维物体检测框架。通过将物体候选项表示为一组查询,并采用基于注意力的深度编码器生成二维输入图像的非局部深度嵌入,然后提出了一个深度引导的解码器,通过深度交叉关注模块对查询与场景深度特征进行交互,每个物体查询从图像的深度引导区域自适应地估计其三维属性。该系统具有端到端的结构,在 KITTI 基准测试上取得了最新成果,并在广泛的消融研究中证明了该方法的有效性,具有成为未来单目三维物体检测研究的 Transformer 基线的潜力。
Mar, 2022
我们引入了 Cascade-DETR 用于高质量的通用目标检测,通过提出级联注意力层来共同解决对多样领域的泛化和定位准确性问题,通过限制关注先前的目标框预测来显式地将对象中心信息集成到检测解码器中。为了进一步提高准确性,我们重新审视了查询的评分,不依赖于分类分数,而是预测查询的预期 IoU,从而显著提高了置信度的校准性,最后,我们引入了一个包含来自多个领域的 10 个数据集的通用目标检测基准,UDB10,在 COCO 上也取得了最新的进展,Cascade-DETR 在 UDB10 的所有数据集上都对基于 DETR 的检测器有了显著的改进,有些甚至超过 10 个 mAP,严格质量要求下的改进效果更加显著。
Jul, 2023
本文中,我们提出了一种改进的两阶段 3D 目标检测框架 CT3D,其中利用高质量的区域提议网络和基于通道的 Transformer 架构来同时执行提议感知嵌入和通道方式的上下文聚合,以获取更准确的目标预测,具有优秀的性能和可伸缩性,尤其是在 KITTI 测试 3D 检测基准中,众车类别的 AP 为 81.77%,优于现有最先进的 3D 检测器。
Aug, 2021