通过空间和时间变换器进行端到端多目标跟踪,超越两帧限制
本文介绍了一种名为 MOTR 的方法,它使用 track query 来建模整个视频中的跟踪实例,并引入了一种新的时域关系建模方法。实验结果表明,MOTR 在 HOTA 指标上比现有技术 ByteTrack 提高了 6.5%,在 MOT17 测试中,MOTR 的关联性能也胜过了 TrackFormer 和 TransTrack。
May, 2021
本文提出一种名为 TransMOT 的解决方案,利用强大的图形转换器来有效建模目标的空间和时间互作用,通过将轨迹作为一组稀疏加权图来排列跟踪对象的轨迹,并构建基于图形的空间图形变换器编码器层、时间变换器编码器层和空间图形变换器解码器层。Proposed 方法在多个基准数据集上进行评估,包括 MOT15、MOT16、MOT17 和 MOT20,在所有数据集上都达到了最先进的性能。
Apr, 2021
提出了一个综合的多目标跟踪方法 STMMOT,该方法结合了目标检测和身份链接,能够在长时间内维持目标身份链接,并利用具有注意力机制的鲁棒时空记忆模块和动态查询嵌入来预测目标状态,消除了后处理的需求。
Dec, 2023
我们提出了 MeMOTR,一种用于多目标跟踪的长期记忆增强 Transformer 模型,通过使用自定义的记忆 - 注意力层注入长期记忆,使得相同目标的轨迹嵌入更加稳定和可分辨,显著提高了模型的目标关联能力。实验结果显示,MeMOTR 在 HOTA 和 AssA 指标上分别超过了现有方法的 7.9%和 13.0%,并且在 MOT17 上的关联性能也优于其他基于 Transformer 的方法,同时在 BDD100K 上也具有很好的泛化性能。
Jul, 2023
TrackFormer 是基于编码器 - 解码器变压器架构的端到端可训练的多目标追踪方法,利用注意力实现帧到帧的数据关联,以查询的形式自回归地跟踪现有轨迹并初始化新轨迹,能够实现目前最先进的多目标跟踪的性能。
Jan, 2021
提出了一种基于 Transformer 的多模态传感器输入的端到端多目标跟踪算法(MotionTrack),它由基于 Transformer 的数据关联(DA)模块和基于 Transformer 的查询增强模块组成,同时实现了多目标检测(MOD)。MotionTrack 及其变体在 nuScenes 数据集上获得更好的结果(AMOTA 得分为 0.55),与 AB3DMOT、CenterTrack 和概率 3D 卡尔曼滤波器等经典基线模型相比有着更好的表现。
Jun, 2023
本文介绍了一种名为 PF-Track 的多相机 3D 多目标跟踪框架,它重点强调时空连续性,过去和未来的推理,采用 “注意跟踪” 框架,并使用对象查询一致地表示跟踪实例,以明确使用历史线索,显式地引用前面帧和其他对象的查询,从而学习优化轨迹并增强物体特征。
Feb, 2023
该文提出了一种名为 MeMOT 的在线跟踪算法,基于 Transformer 框架实现目标检测、数据关联和多目标跟踪,并采用存储身份嵌入的大型时空记忆,能在长时间跨度后链接对象,经过基准数据集的测试,MeMOT 表现出极具竞争力的性能。
Mar, 2022
本文提出了 TransTrack,该方法利用 Transformer 架构解决多目标跟踪问题,采用对象特征作为当前帧的查询并引入一组学习对象查询以检测新对象,通过实现单次检测和跟踪建立了新的联合检测和跟踪范例,在 MOT17 和 MOT20 基准测试中达到了 74.5%和 64.5%的 MOTA,是一种优秀的多目标跟踪方法。
Dec, 2020
提出了一种基于运动的多目标跟踪方法,称为 ETTrack,它融合了变换器模型和时间卷积网络,利用历史运动信息预测个体物体的未来运动,并通过新颖的动量修正损失函数提高了预测准确性,实验证明 ETTrack 在 DanceTrack 和 SportsMOT 上取得了与最先进跟踪器竞争性的性能,分别达到 56.4%和 74.4%的 HOTA 指标。
May, 2024