Z-GMOT: 零样本通用多目标跟踪
本文通过构建 GMOT-40 数据集、设计一系列 GMOT 基线算法及对 GMOT-40 的全面评估,旨在推动 GMOT 的研究,以及提供公共的基准测试、评估结果和基线算法。
Nov, 2020
本文针对 Generic MOT 提出了一种简单而有效的方法 Siamese-DETR,通过基于给定模板图像设计多尺度的对象查询,引入动态匹配训练策略,并通过在前一帧中添加跟踪框作为额外的查询框,简化了在线跟踪流程,将复杂的数据关联替换为更简单的非极大值抑制方法。广泛的实验证明,Siamese-DETR 在 GMOT-40 数据集上远远超过现有的 MOT 方法。
Oct, 2023
通过结合多模态的语言驱动特征和视觉特征,在多目标跟踪中提出了一种新的 LG-MOT 框架,它在不同层次上(场景和实例级)明确利用语言信息并且与标准视觉特征结合以获得判别性表示。通过在现有的 MOT 数据集中注释场景和实例级的语言描述,将语言信息编码到高维度嵌入中,并在训练过程中用于引导视觉特征。在三个基准测试集 MOT17、DanceTrack 和 SportsMOT 上进行了广泛实验,结果显示提出的方法在性能上达到了最先进水平,并在舞蹈跟踪测试集上相对于仅使用视觉特征的基线方法具有绝对增益 2.2%。此外,所提出的 LG-MOT 表现出良好的跨领域泛化能力。
Jun, 2024
多目标跟踪应具备高度的一般化能力,然而现有的跟踪器往往无法满足各种特征,而通过研究并将其抽象成一组跟踪场景属性,我们提出了一种点对点到实例关系的跟踪框架 GeneralTrack,能够在不需要平衡运动和外观的情况下,高效地进行多场景跟踪,从而在多个基准测试中达到最先进的性能,并展示了领域泛化的潜力。
Jun, 2024
本文介绍了一种统一的任务框架 Language-Guided MOT 和相关的大规模基准 LaMOT,旨在推动 Vision-Language MOT 领域的研究进展,并提出了一种简单而有效的追踪器 LaMOTer。
Jun, 2024
引入了 Semantic Multi-Object Tracking (SMOT) 的研究,旨在估计物体的轨迹并理解与轨迹相关的语义细节,包括实例描述、实例交互和整体视频描述,整合了 “where” 和 “what” 以进行跟踪。同时介绍了用于 SMOT 的一个大规模基准测试集 BenSMOT,提供了目标轨迹的注释以及自然语言的实例描述、实例交互和整体描述。此外还提出了专门为 SMOT 设计和端到端训练的新型跟踪器 SMOTer,并通过发布 BenSMOT 和 SMOTer 来推动跟踪领域朝着了解视频的新方向发展。
Mar, 2024
Co-MOT 是一种简单有效的方法,通过阴影概念的新颖合作竞争标签分配来促进端到端的多目标跟踪,使得标签分配策略更加平衡,以优越的性能获得追踪表现。
May, 2023
本文提出了一种将外观和运动特征与几何信息显式结合以提供更准确跟踪的新型无监督 MOT 方法 UnsMOT,通过 CNN 和 RNN 模型提取外观和运动特征,构建对象的图形,并利用 GNN 模型和 CNN 特征输出经优化的对象几何嵌入,通过匹配提取特征和几何嵌入,找出对象之间的关联,实验结果显示与最先进方法相比,在 HOTA、IDF1 和 MOTA 指标上表现出色。
Sep, 2023
本文提出了一种简单而有效的两阶段特征学习模型,以共同学习不同目标的单帧特征和多帧特征,从而在跟踪过程中实现鲁棒的数据关联。通过引入单帧特征学习模块和多帧特征学习模块,可以有效地关联相邻帧之间的目标和长时间丢失的目标。通过简单的数据关联逻辑,所提出的 VisualTracker 能够基于单帧特征和多帧特征进行鲁棒的多目标跟踪,实验结果表明该方法在 MOT17 和 MOT20 数据集上取得了显著的改进,并在 DanceTrack 数据集上达到了最先进的性能。
Nov, 2023
提出一种实例感知跟踪器,结合单个物体跟踪和卷积神经网络技术,用于多物体跟踪,提高跟踪准确性。在 MOT15 和 MOT16 基准测试上表现最佳。
Feb, 2019