使用自然语言描述的实时视觉目标跟踪

Jul, 2019

使用自然语言描述的实时视觉目标跟踪

Real-time Visual Object Tracking with Natural Language Description

Qi Feng, Vitaly Ablavsky, Qinxun Bai, Guorong Li, Stan Sclaroff

TL;DR该研究提出一种利用自然语言描述的深度追踪器，通过使用 LSTM 跟踪器预测目标的更新，可以以每秒超过 30 帧的速度处理具有模糊语言注释的目标，展示出色的性能。

Abstract

In recent years, deep-learning-based visual object trackers have been studied thoroughly, but handling occlusions and/or rapid motion of the target remains challenging. In this work, we argue that conditioning on

deep-learning visual object trackers natural language lstm based tracker tracking challenges

发现论文，激发创造

自然语言驱动下更加灵活精准的目标跟踪：算法与基准评估

本文提出了一种新的基于自然语言描述的目标跟踪方法，通过建立一个自然语言驱动的跟踪器的基准测试数据集，并提出了两个新的挑战来促进相关研究，旨在提高跟踪性能的灵活性、鲁棒性和准确性。

Mar, 2021

上下文感知自然语言跟踪的语言和视觉参考集成

通过自然语言规范（TNL）追踪是在视频序列中根据初始帧的语言描述来稳定地定位目标的方法。本文提出了一种联合多模态追踪框架，通过提示调制模块和统一目标解码模块实现了时间视觉模板和语言表达之间的补充性，并直接在搜索图像上执行整合的查询，以一步预测目标位置。对 TNL2K、OTB-Lang、LaSOT 和 RefCOCOg 进行了大量实验证明了我们所提出方法的有效性，在追踪和地面连接方面与现有方法具有竞争性能。

Mar, 2024

引入自然语言表达式将多目标跟踪推广到未见过的领域

通过引入自然语言表示来提高多目标跟踪模型的域泛化能力，本文提出了两个模块（视觉上下文提示和视觉 - 语言混合），用于生成本征于不同跟踪场景的实例级伪文字描述，并通过在 MOT17 上训练和在 MOT20 上验证，观察到该方法显著提高了基于查询的跟踪器的泛化性能。

Dec, 2022

基于自然语言的目标描述和检索

本文介绍了一种基于对象描述的联合学习视觉和语言以深入了解对象的方法，并提出了两个新的架构来解决对象字幕和基于自然语言的对象检索单元。研究表明，使用混合的端到端 CNN-LSTM 网络可以有效地解决两个问题，并在推理时间非常快的同时，提供了对对象的详细理解。

Mar, 2018

自然语言规约下的联合视觉定位及跟踪

本文提出一种联合视觉定位和追踪的框架，将定位和追踪转化为一个统一的任务，使用自然语言描述来确定目标；该框架使用多源关系建模模块和时间建模模块来构建自然语言描述和测试图像之间的关系，提供全局语义信息的指导和时间线索来提高适应性。

Mar, 2023

孪生自然语言跟踪器：通过自然语言描述进行跟踪的孪生跟踪器

提出 “Siamese Natural Language Tracker” 的新方法，应用于自然语言描述任务的跟踪。相关实验证明，该算法比 “Siamese trackers” 有显著提升，是目前最好的实时跟踪器之一。

Dec, 2019

统一视觉和视觉 - 语言跟踪的对比学习

单目标跟踪 UVLTrack 是一个统一的跟踪器，可同时处理边界框（BBOX）、自然语言（NL）和两者（NL+BBOX）的参考设置，并具有多种优势，包括模态一致的特征提取器、多模态对比性损失和模态自适应盒子头。在多个数据集上 extensive 实验结果显示，UVLTrack 在视觉跟踪、视觉语言跟踪和视觉定位方面具有有前景的性能。

Jan, 2024

将更多关注转移到视觉语言对象追踪上

我们设计了一种有效的视觉 - 语言表示方法，同时为追踪问题构建了一个大型带有语言注释的数据库。通过引入异构架构搜索和模态混合器等核心技术，以及对不同模态之间进行对比损失的引入，我们能够显著改善追踪问题的解决方案，并期望将更多注意力转向视觉 - 语言追踪，为未来的多样化多模态消息追踪开辟更多可能性。

Jul, 2023

CityFlow-NL: 自然语言描述下的城市规模车辆追踪和检索

本文介绍了基于自然语言的城市交通模式和车辆事件检测系统的扩展，提出了 CityFlow-NL 测评标准，并介绍了其在多目标多摄像头跟踪、自然语言检索以及时间定位方面的应用，特别侧重于车辆检索和车辆跟踪这两项任务的探索。

Jan, 2021

零样本自然语言视频定位

本文提出了一种新颖的伪监督方法，用于零样本学习自然语言视频定位模型，并在 Charades-STA 和 ActivityNet-Captions 数据集上实验验证该方法相较于其他方法性能有明显提升。

Aug, 2021