GLT-T: 3D 点云中全局 - 局部 Transformer 投票进行单物体跟踪
提出了基于全局 - 局部 Transformer 模块的投票策略用于 3D 点云中的单目标跟踪,同时引入了重要性预测分支和自适应损失函数来提高跟踪精度。实验结果表明,该方法在多个基准测试中均具有超越先进方法的表现并保持实时推理速度。
Apr, 2023
本论文提出了一种新型基于 Transformer 的架构,用于全局多目标跟踪,通过对各帧图像上的物体特征进行编码,通过路径查询将其分组成轨迹,与目标检测器联合训练,可以实现对任意对象的跟踪,并在 MOT17 基准测试中实现了 75.3 的 MOTA 和 59.1 的 HOTA,超越了基于成对联想的基线,并在 TAO 数据集上得到显著的 7.7 跟踪 mAP 的提高。
Mar, 2022
该研究提出了一个名为 Graph Transformer 的新特征提取模块,它能够在局部和全局模式下学习点云特征。该模块将基于图形和变压器的方法的优点相结合,并包括局部变换器和全局变换器模块。在此基础上,构建了一个 3D 点云网络 GTNet,可以用于形状分类、部分分割和语义分割任务。
May, 2023
本文提出了一种用于 3D 物体检测的弱监督点云变换器框架,旨在降低对训练所需监督的数量,以减少对 3D 数据集进行注释的高成本,通过使用投票网络选择高质量的预设锚点,将信息提炼到学生网络和教师网络。
Sep, 2023
本篇研究文章提出基于点云的 3D 单目标跟踪的 Transformer 模块 Point-Track-Transformer(PTT),其包含特征嵌入,位置编码和自注意力模块等三个模块,将该模块应用到现有的 P2B 方法上构建出 PTT-Net,并在 KITTI 数据集上实验表明,该模型较现有方法提升了约 10%左右的性能,并实现了实时性能(~40FPS)。
Aug, 2021
本文采用多帧点云视频中的时间信息来探测 3D 物体。研究者们提出了一种名为 GMPNet 的格网信息传递网络来编码短期时间信息,并提出了一个名为 AST-GRU 的基于注意力的时空变换 GRU 来进一步聚合长期帧。在 NuScenes 基准测试中,该方法表现优异,且不需要任何额外的手段。
Jul, 2022
本文提出了一个端到端的在线三维视频物体检测器,该模型由空间特征编码组件和时空特征聚合组件组成。在空间特征编码组件中,提出了一种新的 Pillar Message Passing Network(PMPNet)模型,用于对离散点云帧进行编码。在时空特征聚合组件中,提出了一种注意力时空变换门控循环神经网络(AST-GRU),它通过注意力机制强调了前景物体并对动态物体进行了对齐。实验结果表明,该模型在大规模 nuScenes 基准测试中实现了最先进的性能。
Apr, 2020
我们提出了一种基于 pillar 的 3D 单物体跟踪框架 PillarTrack,通过将稀疏的点云转化为稠密的 pillar 来保留本地和全局几何特征,并引入了一种金字塔型编码 pillar 特征编码器(PE-PFE)设计以提高每个 pillar 的特征表示,并从模态差异的角度介绍了一种高效的基于 Transformer 的骨干网络。通过在 KITTI 和 nuScenes 数据集上进行广泛实验,我们的方法表现卓越,并实现了实时跟踪速度。我们希望我们的工作能够鼓励社区重新思考现有的 3D 单物体跟踪器设计。
Apr, 2024
本文研究了物体再识别中全局 - 局部关系对于 Transformer 的影响,并提出了一种全局 - 局部 Transformer 模型,并基于最后几层的特征和类别信息学习了全局特征,同时结合多层局部信息来探索判别性的局部表示,在四个物体再识别基准数据集上实现了卓越的性能。
Apr, 2024
本文提出了一种基于 transformer 架构的特征融合网络,以解决 3D 目标跟踪中的关键问题。该网络利用自注意机制捕捉点云中不同区域之间的相互关系,并使用交叉注意力将目标提示信息融入特征中,从而提高相似度计算的效率。在 KITTI 数据集上的实验结果表明,该方法取得了最新的最佳表现。
Oct, 2021