VOVTrack:探索视频中的开放词汇目标跟踪潜力
使用Transformer和时空嵌入的MO3TR方法,具有空间和时间注意机制,无需显式的数据聚类模块或任何启发式方法,成功解决了多物体追踪过程中的诸多挑战,表现方面同多个popular MOT图像和视频基准测试的现有最先进技术几乎相当或更好。
Mar, 2021
该论文提出了一个新的学习框架,结合LVIS和TAO数据集,解决了监督不足的问题,从而实现在视频识别中的检测和追踪,进而在TAO基准之上,提升了大型目标追踪器的表现。
Dec, 2022
本研究解决了传统多目标跟踪方法只针对少数预定义对象类型的固有限制,并提出了一种新的任务Open-vocabulary MOT,进一步开发出一种数据效率优异的开放词汇跟踪器OVTrack,通过知识蒸馏和数据幻觉策略有效提升图像分类和关联准确性,最终在大规模的TAO基准测试上取得了最新的最优效果。
Apr, 2023
该研究提出了一种视频基于物体为中心的模型,通过适应物体为中心的插槽以及构建完整物体原型来处理遮挡,仅需要稀疏的检测标签进行物体定位和特征绑定,无需ID标签,并通过自我监督的期望最大化损失函数实现物体关联,实验证明了该方法在物体为中心的学习领域的卓越性能。
Sep, 2023
通过重复用大规模预训练模型进行检测和分割,本研究提出了一种在2D视频中追踪和分割任何类别对象的模型,并在多个评估数据集上取得了强大的性能表现。
Oct, 2023
通过引入一个名为VastTrack的新型基准,本文旨在促进更加通用的视觉跟踪算法的发展,包括丰富的类别和视频,它具有大量目标类别、更大的规模、丰富的注释等吸引人的特性。
Mar, 2024
引入了Semantic Multi-Object Tracking (SMOT)的研究,旨在估计物体的轨迹并理解与轨迹相关的语义细节,包括实例描述、实例交互和整体视频描述,整合了“where”和“what”以进行跟踪。同时介绍了用于SMOT的一个大规模基准测试集BenSMOT,提供了目标轨迹的注释以及自然语言的实例描述、实例交互和整体描述。此外还提出了专门为SMOT设计和端到端训练的新型跟踪器SMOTer,并通过发布BenSMOT和SMOTer来推动跟踪领域朝着了解视频的新方向发展。
Mar, 2024
通过结合多模态的语言驱动特征和视觉特征,在多目标跟踪中提出了一种新的LG-MOT框架,它在不同层次上(场景和实例级)明确利用语言信息并且与标准视觉特征结合以获得判别性表示。通过在现有的MOT数据集中注释场景和实例级的语言描述,将语言信息编码到高维度嵌入中,并在训练过程中用于引导视觉特征。在三个基准测试集MOT17、DanceTrack和SportsMOT上进行了广泛实验,结果显示提出的方法在性能上达到了最先进水平,并在舞蹈跟踪测试集上相对于仅使用视觉特征的基线方法具有绝对增益2.2%。此外,所提出的LG-MOT表现出良好的跨领域泛化能力。
Jun, 2024
本研究针对多目标跟踪(MOT)领域中的传统封闭词汇跟踪(CV-MOT)和开放词汇跟踪(OV-MOT)各自面临的局限性,提出了统一的框架“关联所有探测到的对象(AED)”。该方法通过引入强大的特征学习,无需先验知识,兼顾CV-MOT和OV-MOT的性能,显著提升了在未知类别跟踪中的表现。最显著的发现是,AED在多个数据集上如TAO、SportsMOT和DanceTrack”等较现有方法表现更优。
Sep, 2024
本研究针对开放词汇多目标跟踪(OVT)领域的基准缺乏问题,提出了一个新的大规模基准OVT-B,包含1,048类对象和1,973个视频,极大丰富了该领域的数据资源。此外,研究还开发了一种简单而有效的基线方法,通过整合运动特征来进行目标跟踪,实验证明了该方法的有效性和基准的实用性。
Oct, 2024