TrackFormer:基于 Transformer 的多目标跟踪
基于 Transformer 架构构建的学习几何 3D MOT 框架 3DMOTFormer,在进行跟踪检测双向图的基础上,通过边分类进行数据关联,并提出了一种新颖的在线训练策略,通过自回归和递归前向传播以及序列化批量优化来减少训练和推断之间的分布不匹配。
Aug, 2023
本文提出了 TransTrack,该方法利用 Transformer 架构解决多目标跟踪问题,采用对象特征作为当前帧的查询并引入一组学习对象查询以检测新对象,通过实现单次检测和跟踪建立了新的联合检测和跟踪范例,在 MOT17 和 MOT20 基准测试中达到了 74.5%和 64.5%的 MOTA,是一种优秀的多目标跟踪方法。
Dec, 2020
本文介绍了一种名为 MOTR 的方法,它使用 track query 来建模整个视频中的跟踪实例,并引入了一种新的时域关系建模方法。实验结果表明,MOTR 在 HOTA 指标上比现有技术 ByteTrack 提高了 6.5%,在 MOT17 测试中,MOTR 的关联性能也胜过了 TrackFormer 和 TransTrack。
May, 2021
TrajectoryFormer 是一种基于点云的 3D 多目标跟踪 (MOT) 框架,通过使用带有时间预测框和当前帧检测框的多个轨迹假设进行轨迹框关联,结合长期目标运动特征和短期目标外观特征来创建每个假设的特征嵌入,引入全局 - 局部交互模块来模拟所有假设的空间关系,从而达到 Waymo 3D MOT 基准测试中的最佳性能。
Jun, 2023
使用 Transformer 和时空嵌入的 MO3TR 方法,具有空间和时间注意机制,无需显式的数据聚类模块或任何启发式方法,成功解决了多物体追踪过程中的诸多挑战,表现方面同多个 popular MOT 图像和视频基准测试的现有最先进技术几乎相当或更好。
Mar, 2021
本文提出一种名为 TransMOT 的解决方案,利用强大的图形转换器来有效建模目标的空间和时间互作用,通过将轨迹作为一组稀疏加权图来排列跟踪对象的轨迹,并构建基于图形的空间图形变换器编码器层、时间变换器编码器层和空间图形变换器解码器层。Proposed 方法在多个基准数据集上进行评估,包括 MOT15、MOT16、MOT17 和 MOT20,在所有数据集上都达到了最先进的性能。
Apr, 2021
提出了一个综合的多目标跟踪方法 STMMOT,该方法结合了目标检测和身份链接,能够在长时间内维持目标身份链接,并利用具有注意力机制的鲁棒时空记忆模块和动态查询嵌入来预测目标状态,消除了后处理的需求。
Dec, 2023
本论文提出了一种新型基于 Transformer 的架构,用于全局多目标跟踪,通过对各帧图像上的物体特征进行编码,通过路径查询将其分组成轨迹,与目标检测器联合训练,可以实现对任意对象的跟踪,并在 MOT17 基准测试中实现了 75.3 的 MOTA 和 59.1 的 HOTA,超越了基于成对联想的基线,并在 TAO 数据集上得到显著的 7.7 跟踪 mAP 的提高。
Mar, 2022
提出了一种基于 Transformer 的多模态传感器输入的端到端多目标跟踪算法(MotionTrack),它由基于 Transformer 的数据关联(DA)模块和基于 Transformer 的查询增强模块组成,同时实现了多目标检测(MOD)。MotionTrack 及其变体在 nuScenes 数据集上获得更好的结果(AMOTA 得分为 0.55),与 AB3DMOT、CenterTrack 和概率 3D 卡尔曼滤波器等经典基线模型相比有着更好的表现。
Jun, 2023
我们提出了 MeMOTR,一种用于多目标跟踪的长期记忆增强 Transformer 模型,通过使用自定义的记忆 - 注意力层注入长期记忆,使得相同目标的轨迹嵌入更加稳定和可分辨,显著提高了模型的目标关联能力。实验结果显示,MeMOTR 在 HOTA 和 AssA 指标上分别超过了现有方法的 7.9%和 13.0%,并且在 MOT17 上的关联性能也优于其他基于 Transformer 的方法,同时在 BDD100K 上也具有很好的泛化性能。
Jul, 2023