本文提出了一种新的基于自然语言描述的目标跟踪方法,通过建立一个自然语言驱动的跟踪器的基准测试数据集,并提出了两个新的挑战来促进相关研究,旨在提高跟踪性能的灵活性、鲁棒性和准确性。
Mar, 2021
通过自然语言规范(TNL)追踪是在视频序列中根据初始帧的语言描述来稳定地定位目标的方法。本文提出了一种联合多模态追踪框架,通过提示调制模块和统一目标解码模块实现了时间视觉模板和语言表达之间的补充性,并直接在搜索图像上执行整合的查询,以一步预测目标位置。对 TNL2K、OTB-Lang、LaSOT 和 RefCOCOg 进行了大量实验证明了我们所提出方法的有效性,在追踪和地面连接方面与现有方法具有竞争性能。
Mar, 2024
通过引入自然语言表示来提高多目标跟踪模型的域泛化能力,本文提出了两个模块(视觉上下文提示和视觉 - 语言混合),用于生成本征于不同跟踪场景的实例级伪文字描述,并通过在 MOT17 上训练和在 MOT20 上验证,观察到该方法显著提高了基于查询的跟踪器的泛化性能。
Dec, 2022
本文介绍了一种基于对象描述的联合学习视觉和语言以深入了解对象的方法,并提出了两个新的架构来解决对象字幕和基于自然语言的对象检索单元。研究表明,使用混合的端到端 CNN-LSTM 网络可以有效地解决两个问题,并在推理时间非常快的同时,提供了对对象的详细理解。
Mar, 2018
本文提出一种联合视觉定位和追踪的框架,将定位和追踪转化为一个统一的任务,使用自然语言描述来确定目标;该框架使用多源关系建模模块和时间建模模块来构建自然语言描述和测试图像之间的关系,提供全局语义信息的指导和时间线索来提高适应性。
Mar, 2023
提出 “Siamese Natural Language Tracker” 的新方法,应用于自然语言描述任务的跟踪。相关实验证明,该算法比 “Siamese trackers” 有显著提升,是目前最好的实时跟踪器之一。
Dec, 2019
单目标跟踪 UVLTrack 是一个统一的跟踪器,可同时处理边界框(BBOX)、自然语言(NL)和两者(NL+BBOX)的参考设置,并具有多种优势,包括模态一致的特征提取器、多模态对比性损失和模态自适应盒子头。在多个数据集上 extensive 实验结果显示,UVLTrack 在视觉跟踪、视觉语言跟踪和视觉定位方面具有有前景的性能。
Jan, 2024
我们设计了一种有效的视觉 - 语言表示方法,同时为追踪问题构建了一个大型带有语言注释的数据库。通过引入异构架构搜索和模态混合器等核心技术,以及对不同模态之间进行对比损失的引入,我们能够显著改善追踪问题的解决方案,并期望将更多注意力转向视觉 - 语言追踪,为未来的多样化多模态消息追踪开辟更多可能性。
Jul, 2023
本文介绍了基于自然语言的城市交通模式和车辆事件检测系统的扩展,提出了 CityFlow-NL 测评标准,并介绍了其在多目标多摄像头跟踪、自然语言检索以及时间定位方面的应用,特别侧重于车辆检索和车辆跟踪这两项任务的探索。
Jan, 2021
本文提出了一种新颖的伪监督方法,用于零样本学习自然语言视频定位模型,并在 Charades-STA 和 ActivityNet-Captions 数据集上实验验证该方法相较于其他方法性能有明显提升。
Aug, 2021