LaMOT: 语言引导的多目标跟踪
通过结合多模态的语言驱动特征和视觉特征,在多目标跟踪中提出了一种新的 LG-MOT 框架,它在不同层次上(场景和实例级)明确利用语言信息并且与标准视觉特征结合以获得判别性表示。通过在现有的 MOT 数据集中注释场景和实例级的语言描述,将语言信息编码到高维度嵌入中,并在训练过程中用于引导视觉特征。在三个基准测试集 MOT17、DanceTrack 和 SportsMOT 上进行了广泛实验,结果显示提出的方法在性能上达到了最先进水平,并在舞蹈跟踪测试集上相对于仅使用视觉特征的基线方法具有绝对增益 2.2%。此外,所提出的 LG-MOT 表现出良好的跨领域泛化能力。
Jun, 2024
通过引入自然语言表示来提高多目标跟踪模型的域泛化能力,本文提出了两个模块(视觉上下文提示和视觉 - 语言混合),用于生成本征于不同跟踪场景的实例级伪文字描述,并通过在 MOT17 上训练和在 MOT20 上验证,观察到该方法显著提高了基于查询的跟踪器的泛化性能。
Dec, 2022
本研究解决了传统多目标跟踪方法只针对少数预定义对象类型的固有限制,并提出了一种新的任务 Open-vocabulary MOT,进一步开发出一种数据效率优异的开放词汇跟踪器 OVTrack,通过知识蒸馏和数据幻觉策略有效提升图像分类和关联准确性,最终在大规模的 TAO 基准测试上取得了最新的最优效果。
Apr, 2023
本文提出了一个新的、通用的指代多目标跟踪(RMOT)任务,其核心思想是利用语言表达作为语义线索来引导多目标跟踪的预测。作者构建了一个基于 KITTI 的可扩展表达基准 Refer-KITTI,并开发了一个基于变压器的 TransRMOT 架构来解决该任务,在线方式取得了令人瞩目的检测性能,并超越了其他对手。
Mar, 2023
我们设计了一种有效的视觉 - 语言表示方法,同时为追踪问题构建了一个大型带有语言注释的数据库。通过引入异构架构搜索和模态混合器等核心技术,以及对不同模态之间进行对比损失的引入,我们能够显著改善追踪问题的解决方案,并期望将更多注意力转向视觉 - 语言追踪,为未来的多样化多模态消息追踪开辟更多可能性。
Jul, 2023
引入了 Semantic Multi-Object Tracking (SMOT) 的研究,旨在估计物体的轨迹并理解与轨迹相关的语义细节,包括实例描述、实例交互和整体视频描述,整合了 “where” 和 “what” 以进行跟踪。同时介绍了用于 SMOT 的一个大规模基准测试集 BenSMOT,提供了目标轨迹的注释以及自然语言的实例描述、实例交互和整体描述。此外还提出了专门为 SMOT 设计和端到端训练的新型跟踪器 SMOTer,并通过发布 BenSMOT 和 SMOTer 来推动跟踪领域朝着了解视频的新方向发展。
Mar, 2024
该研究提出了一种简单、灵活且有效的视觉 - 语言(VL)跟踪管道,称为 MMTrack,它将 VL 跟踪视为一个标记生成任务,并通过将语言描述和边界框序列化为一系列离散标记来实现。通过避免多个子任务的学习和手动设计的损失函数,该设计范式极大地降低了 VL 跟踪建模的复杂性,并允许跟踪器使用简单的交叉熵损失作为统一的优化目标。在 TNL2K、LaSOT、LaSOT_ext 和 OTB99-Lang 基准测试上的广泛实验表明,与其他最先进的方法相比,我们的方法取得了令人满意的结果。
Aug, 2023
本文通过构建 GMOT-40 数据集、设计一系列 GMOT 基线算法及对 GMOT-40 的全面评估,旨在推动 GMOT 的研究,以及提供公共的基准测试、评估结果和基线算法。
Nov, 2020
我们介绍了一种新方法,称为零样本通用多目标跟踪算法(Z-GMOT),它可以跟踪从未见过的物体类别,而无需预定义类别或初始边界框。我们使用 iGLIP 对 Z-GMOT 进行评估,结果表明在多个数据集上的表现优于现有方法。
May, 2023
本文综述了利用深度学习模型解决单摄像头视频的多目标跟踪任务的研究,总结了该任务中的四个主要步骤,并深入探讨了如何在每个步骤中利用深度学习。此外,还提供了对三个 MOTChallenge 数据集中所呈现的工作的完整实验比较,并确定了最优解方法之间的若干相似之处,提出了一些可能的未来研究方向。
Jul, 2019