BOTT:用于 3D 物体跟踪的仅使用框的 Transformer 跟踪器
基于 Transformer 架构构建的学习几何 3D MOT 框架 3DMOTFormer,在进行跟踪检测双向图的基础上,通过边分类进行数据关联,并提出了一种新颖的在线训练策略,通过自回归和递归前向传播以及序列化批量优化来减少训练和推断之间的分布不匹配。
Aug, 2023
TrajectoryFormer 是一种基于点云的 3D 多目标跟踪 (MOT) 框架,通过使用带有时间预测框和当前帧检测框的多个轨迹假设进行轨迹框关联,结合长期目标运动特征和短期目标外观特征来创建每个假设的特征嵌入,引入全局 - 局部交互模块来模拟所有假设的空间关系,从而达到 Waymo 3D MOT 基准测试中的最佳性能。
Jun, 2023
使用 Transformer 和时空嵌入的 MO3TR 方法,具有空间和时间注意机制,无需显式的数据聚类模块或任何启发式方法,成功解决了多物体追踪过程中的诸多挑战,表现方面同多个 popular MOT 图像和视频基准测试的现有最先进技术几乎相当或更好。
Mar, 2021
本文提出了一种名为 Box-attention 的简单注意机制,通过将感兴趣的格子特征采样自不同盒子进行空间交互,从而改进了变形器在多个视觉任务上的学习能力。具体而言,我们提出了 Box Transformer,通过预测它们从输入特征图上的参考窗口的变换,参照一组盒子。Box Transformer 通过考虑其格子结构对这些盒子进行注意力加权。在 box-attention 模块中学习旋转不变性后,BoxeR-3D 能够从鸟瞰图平面生成具有辨别性的信息以进行端到端的 3D 物体检测。实验结果表明,BoxeR-2D 在 COCO 检测和实例分割上实现了最新的结果。此外,BoxeR-3D 也在端到端的 3D 物体检测领域取得了很好的表现,而无需任何特定类别的优化。
Nov, 2021
本论文提出了一种新型基于 Transformer 的架构,用于全局多目标跟踪,通过对各帧图像上的物体特征进行编码,通过路径查询将其分组成轨迹,与目标检测器联合训练,可以实现对任意对象的跟踪,并在 MOT17 基准测试中实现了 75.3 的 MOTA 和 59.1 的 HOTA,超越了基于成对联想的基线,并在 TAO 数据集上得到显著的 7.7 跟踪 mAP 的提高。
Mar, 2022
本文提出了 TransTrack,该方法利用 Transformer 架构解决多目标跟踪问题,采用对象特征作为当前帧的查询并引入一组学习对象查询以检测新对象,通过实现单次检测和跟踪建立了新的联合检测和跟踪范例,在 MOT17 和 MOT20 基准测试中达到了 74.5%和 64.5%的 MOTA,是一种优秀的多目标跟踪方法。
Dec, 2020
提出了一个综合的多目标跟踪方法 STMMOT,该方法结合了目标检测和身份链接,能够在长时间内维持目标身份链接,并利用具有注意力机制的鲁棒时空记忆模块和动态查询嵌入来预测目标状态,消除了后处理的需求。
Dec, 2023
提出了一种称为 “Tracking-by-Animation” 的跟踪框架,通过利用可微分的神经模型对多个对象进行跟踪,并在重构帧中动画化这些对象,从而实现了无需标记数据的端到端 MOT 学习。同时进一步提出了优化数据关联的 “Reprioritized Attentive Tracking” 模型。
Sep, 2018
提出了一种基于 Transformer 的多模态传感器输入的端到端多目标跟踪算法(MotionTrack),它由基于 Transformer 的数据关联(DA)模块和基于 Transformer 的查询增强模块组成,同时实现了多目标检测(MOD)。MotionTrack 及其变体在 nuScenes 数据集上获得更好的结果(AMOTA 得分为 0.55),与 AB3DMOT、CenterTrack 和概率 3D 卡尔曼滤波器等经典基线模型相比有着更好的表现。
Jun, 2023
提出了一种基于单目视觉的 3D 车辆检测和跟踪的在线框架,并利用 3D 车辆坐标信息和深度匹配对数据进行关联,并设计了一个基于 LSTM 的动作学习模块,以进行更准确的长期运动外推。实验结果表明,该跟踪系统可以提供抗干扰性更强的数据关联和跟踪能力,并且在跟踪 30 米内的行驶车辆方面比基于激光雷达的方法表现更好。
Nov, 2018