Jan, 2024

统一视觉和视觉 - 语言跟踪的对比学习

TL;DR单目标跟踪 UVLTrack 是一个统一的跟踪器,可同时处理边界框(BBOX)、自然语言(NL)和两者(NL+BBOX)的参考设置,并具有多种优势,包括模态一致的特征提取器、多模态对比性损失和模态自适应盒子头。在多个数据集上 extensive 实验结果显示,UVLTrack 在视觉跟踪、视觉语言跟踪和视觉定位方面具有有前景的性能。