PETR:用于多视角 3D 物体检测的位置嵌入转换
本文提出了 PETRv2,这是一个统一的框架,用于从多视角图像中进行三维感知,基于 PETR,PETRv2 利用先前帧的时间信息进行了时间建模,扩展了 PETR 中的 3D 位置嵌入。PETRv2 提出了一种简单而有效的解决方案,并通过引入任务特定查询来支持多任务学习,PETRv2 在三维物体检测、BEV 分割和三维车道检测方面取得了最先进的表现。
Jun, 2022
本文提出了一种基于相机视图位置编码(CAPE)的方法,旨在解决基于查询的多视图 3D 目标检测问题,实验结果表明,该方法在 NuScenes 数据集上的表现已达到目前最先进水平。
Mar, 2023
使用 DET 框架引入一种高性能的用于点云的 3D 物体检测器,通过引入一种新的 3D 顶点相对位置编码方法,使模型集中于对象附近的点,进一步改进了管道,在 ScanNetV2 基准测试上取得了显著的改进。
Aug, 2023
3DETR 是一种基于 Transformer 的端到端目标检测模型,适用于 3D 点云,相较于现有的检测方法,它需要最少的修改,可以通过将 3D 领域知识整合进去得到进一步的改进,在 ScanNetV2 数据集上,相比于 VoteNet 基线具有 9.5% 更好的性能,并且适用于其他 3D 任务。
Sep, 2021
提出了一种新颖的 3D 物体检测架构 M3DeTR,它将不同的点云表示方法(原始、体素、鸟瞰图)和不同的特征尺度结合在一起,并基于多尺度特征金字塔来模型点云之间的相互关系。通过大量的消融实验,突出了特征尺度和表示方式融合,以及模型点云之间的相互关系的好处。在 KITTI 3D 物体检测数据集和 Waymo 开放数据集中取得了最先进的性能表现,并在一些类别中排名第一。
Apr, 2021
STEMD 是一种基于 DETR 的新型端到端框架,用于实现多帧 3D 物体检测,其有效地捕获了特征和相应级别的时空依赖性,并引入了空间 - 时间图注意力网络,以解决对象之间的空间交互作用和复杂的时间依赖性问题,控制冗余检测结果。
Jul, 2023
本研究介绍了一种基于多视角几何的 3D 物体检测方法 VEDet,通过视点感知和等变性,利用查询式转换器系统将三维场景转化为位置编码来提高目标定位精度,并在损失层面进行多视角一致性规范化,通过丰富的几何线索提高性能以优化现有方法。
Mar, 2023
本文提出 TS3D,一种基于 Transformer 的立体感知 3D 物体检测器,其中包括一种新颖的视差位置编码模型(DAPE)和 Stereo Reserving Feature Pyramid Network(SRFPN),使其在 KITTI 测试集上取得了 41.29%的平均精度。
Apr, 2023
提出了一种基于多摄像头的 3D 对象检测框架,使用基于上下文注意力的网络,直接在 3D 空间中进行边界框的预测,实现了全球最佳性能。
Oct, 2021
本文介绍了一种利用图结构学习的方法 --Graph-DETR3D-- 用于自动聚合多视角图像信息,以提高 3D 物体检测的性能。我们证明了在不同区域定位物体时,边缘区域的 “截断实例” 是影响 DETR3D 表现的主要瓶颈之一。通过采用我们提出的深度无关多尺度训练策略和动态 3D 图技术,相较于其他图像视角 3D 物体检测器的表现,Graph-DETR3D 获得了更好的表现。
Apr, 2022