Jun, 2024
多粒度语言指导的多目标追踪
Multi-Granularity Language-Guided Multi-Object Tracking
TL;DR通过结合多模态的语言驱动特征和视觉特征,在多目标跟踪中提出了一种新的LG-MOT框架,它在不同层次上(场景和实例级)明确利用语言信息并且与标准视觉特征结合以获得判别性表示。通过在现有的MOT数据集中注释场景和实例级的语言描述,将语言信息编码到高维度嵌入中,并在训练过程中用于引导视觉特征。在三个基准测试集MOT17、DanceTrack和SportsMOT上进行了广泛实验,结果显示提出的方法在性能上达到了最先进水平,并在舞蹈跟踪测试集上相对于仅使用视觉特征的基线方法具有绝对增益2.2%。此外,所提出的LG-MOT表现出良好的跨领域泛化能力。