OcTr:基于八叉树 Transformer 的 3D 物体检测
使用 OCTraN,一种基于转换器架构和迭代注意力机制的方法,将 2D 图像特征转换成 3D 空间占用特征,并且利用卷积和转置卷积高效地处理空间信息,从而解决了自主导航中视觉感知和深度估计的问题。
Jul, 2023
自主驾驶中感兴趣的 3D 占据预测,通过其出色的几何认知和一般物体识别能力来推动。为了实现这一点,当前的工作试图构建从鸟瞰图感知扩展的三透视视图(TPV)或占据(OCC)表示。然而,像 TPV 表示这样的压缩视图会丢失 3D 几何信息,而原始和稀疏的 OCC 表示则需要大量但冗余的计算成本。为了解决上述限制,我们提出了一种紧凑的占据转换器(COTR),它具有一个具有几何意识的占据编码器和一个语义意识的组解码器来重建紧凑的 3D OCC 表示。经验性实验表明,在多个基线上有明显的性能提升,例如,COTR 相对改进 8%-15%,证明了我们方法的优越性。
Dec, 2023
3DETR 是一种基于 Transformer 的端到端目标检测模型,适用于 3D 点云,相较于现有的检测方法,它需要最少的修改,可以通过将 3D 领域知识整合进去得到进一步的改进,在 ScanNetV2 数据集上,相比于 VoteNet 基线具有 9.5% 更好的性能,并且适用于其他 3D 任务。
Sep, 2021
通过引入两个旨在准确高效地检测和定位三维空间中物体的 3D 物体检测框架,本文目的是解决当前 3D 检测的灵活性和可伸缩性不足的问题,并在 KITTI 数据集和大规模 Waymo 数据集上取得最先进的性能。
Jun, 2024
本研究介绍了一种名为 MonoDETR 的使用深度感知 Transformer 的新型单目三维物体检测框架。通过将物体候选项表示为一组查询,并采用基于注意力的深度编码器生成二维输入图像的非局部深度嵌入,然后提出了一个深度引导的解码器,通过深度交叉关注模块对查询与场景深度特征进行交互,每个物体查询从图像的深度引导区域自适应地估计其三维属性。该系统具有端到端的结构,在 KITTI 基准测试上取得了最新成果,并在广泛的消融研究中证明了该方法的有效性,具有成为未来单目三维物体检测研究的 Transformer 基线的潜力。
Mar, 2022
本文提出了一种基于 transformer 架构的特征融合网络,以解决 3D 目标跟踪中的关键问题。该网络利用自注意机制捕捉点云中不同区域之间的相互关系,并使用交叉注意力将目标提示信息融入特征中,从而提高相似度计算的效率。在 KITTI 数据集上的实验结果表明,该方法取得了最新的最佳表现。
Oct, 2021
提出了一种新颖的端到端深度感知装换网络 MonoDTR,用于解决自动驾驶中单目 3D 物体检测的任务,该网络包括深度感知特征增强模块(DFE)以及深度感知 Transformer 模块(DTR),通过辅助监督学习无需额外计算的深度感知特征,并全局整合上下文和深度感知特征;深度位置编码(DPE)注入深度位置提示到 Transformer 中,并通过实验证明该方法优于现有最先进方法并可实现实时检测。
Mar, 2022
OctFormer 使用基于八叉树的关注机制进行分割和检测,这种关注机制具有高效性和灵活性,且在多个基准测试中表现出优异的性能。
May, 2023
提出了一种基于时间 LiDAR 的三维物体检测方法,利用点云和轨迹特征相结合的点轨迹变压器和长短期记忆,实现了对三维物体的高效检测。对大规模 Waymo 数据集进行了广泛实验,证明了该方法在性能上优于现有的方法。
Dec, 2023
本文中,我们提出了一种改进的两阶段 3D 目标检测框架 CT3D,其中利用高质量的区域提议网络和基于通道的 Transformer 架构来同时执行提议感知嵌入和通道方式的上下文聚合,以获取更准确的目标预测,具有优秀的性能和可伸缩性,尤其是在 KITTI 测试 3D 检测基准中,众车类别的 AP 为 81.77%,优于现有最先进的 3D 检测器。
Aug, 2021