上下文感知自然语言跟踪的语言和视觉参考集成

CVPRMar, 2024

上下文感知自然语言跟踪的语言和视觉参考集成

Context-Aware Integration of Language and Visual References for Natural Language Tracking

Yanyan Shao, Shuting He, Qi Ye, Yuchao Feng, Wenhan Luo...

TL;DR通过自然语言规范（TNL）追踪是在视频序列中根据初始帧的语言描述来稳定地定位目标的方法。本文提出了一种联合多模态追踪框架，通过提示调制模块和统一目标解码模块实现了时间视觉模板和语言表达之间的补充性，并直接在搜索图像上执行整合的查询，以一步预测目标位置。对 TNL2K、OTB-Lang、LaSOT 和 RefCOCOg 进行了大量实验证明了我们所提出方法的有效性，在追踪和地面连接方面与现有方法具有竞争性能。

Abstract

tracking by natural language specification (tnl) aims to consistently localize a target in a video sequence given a linguistic description in the initial frame. Existing methodologies perform language-based and t

tracking by natural language specification tnl multi-modal tracking framework prompt modulation module unified target decoding module

发现论文，激发创造

自然语言规约下的联合视觉定位及跟踪

本文提出一种联合视觉定位和追踪的框架，将定位和追踪转化为一个统一的任务，使用自然语言描述来确定目标；该框架使用多源关系建模模块和时间建模模块来构建自然语言描述和测试图像之间的关系，提供全局语义信息的指导和时间线索来提高适应性。

Mar, 2023

自然语言驱动下更加灵活精准的目标跟踪：算法与基准评估

本文提出了一种新的基于自然语言描述的目标跟踪方法，通过建立一个自然语言驱动的跟踪器的基准测试数据集，并提出了两个新的挑战来促进相关研究，旨在提高跟踪性能的灵活性、鲁棒性和准确性。

Mar, 2021

使用自然语言描述的实时视觉目标跟踪

该研究提出一种利用自然语言描述的深度追踪器，通过使用 LSTM 跟踪器预测目标的更新，可以以每秒超过 30 帧的速度处理具有模糊语言注释的目标，展示出色的性能。

Jul, 2019

统一视觉和视觉 - 语言跟踪的对比学习

单目标跟踪 UVLTrack 是一个统一的跟踪器，可同时处理边界框（BBOX）、自然语言（NL）和两者（NL+BBOX）的参考设置，并具有多种优势，包括模态一致的特征提取器、多模态对比性损失和模态自适应盒子头。在多个数据集上 extensive 实验结果显示，UVLTrack 在视觉跟踪、视觉语言跟踪和视觉定位方面具有有前景的性能。

Jan, 2024

迈向视觉语言跟踪的统一标记学习

该研究提出了一种简单、灵活且有效的视觉 - 语言（VL）跟踪管道，称为 MMTrack，它将 VL 跟踪视为一个标记生成任务，并通过将语言描述和边界框序列化为一系列离散标记来实现。通过避免多个子任务的学习和手动设计的损失函数，该设计范式极大地降低了 VL 跟踪建模的复杂性，并允许跟踪器使用简单的交叉熵损失作为统一的优化目标。在 TNL2K、LaSOT、LaSOT_ext 和 OTB99-Lang 基准测试上的广泛实验表明，与其他最先进的方法相比，我们的方法取得了令人满意的结果。

Aug, 2023

引入自然语言表达式将多目标跟踪推广到未见过的领域

通过引入自然语言表示来提高多目标跟踪模型的域泛化能力，本文提出了两个模块（视觉上下文提示和视觉 - 语言混合），用于生成本征于不同跟踪场景的实例级伪文字描述，并通过在 MOT17 上训练和在 MOT20 上验证，观察到该方法显著提高了基于查询的跟踪器的泛化性能。

Dec, 2022

超越视觉线索：同步探索面向目标的语义用于视觉 - 语言追踪

这篇研究论文介绍了一种新颖的追踪器，通过逐步探索目标中心语义来进行视觉 - 语言追踪，其中包括两个关键模块：目标增强模块（TEM）和语义感知模块（SAM），并采用密集匹配损失以增强多模态表示学习。实验证明了该方法的优越性和有效性。

Nov, 2023

将更多关注转移到视觉语言对象追踪上

我们设计了一种有效的视觉 - 语言表示方法，同时为追踪问题构建了一个大型带有语言注释的数据库。通过引入异构架构搜索和模态混合器等核心技术，以及对不同模态之间进行对比损失的引入，我们能够显著改善追踪问题的解决方案，并期望将更多注意力转向视觉 - 语言追踪，为未来的多样化多模态消息追踪开辟更多可能性。

Jul, 2023

利用自然语言在视频时序关系中进行时刻定位

本论文提出了 Temporal Compositional Modular Network (TCMN) 模型，该模型结合自然语言描述和视觉信息，通过树形注意力网络自动细分为描述主事件、情境事件和时间信号三部分，再使用两个模块计量视频片段与细分描述间的相似度和位置相似度，通过 late fusion 方法组合 RGB 和光流两种数据进行训练，实验证明此模型在 TEMPO 数据集上表现优于现有方法。

Aug, 2019

一体化探索：多模态对齐下的统一视觉语言跟踪

现有主流的视觉语言（VL）跟踪框架由三部分组成，即视觉特征提取器，语言特征提取器和融合模型。本文提出了一个全新的、一体化的框架，通过采用统一的 Transformer 骨干结构，学习联合特征提取和交互，实现了特征的统一融合，消除了特征集成和融合模块的需求，从而在视觉语言跟踪方面获得了更有效和高效的结果。

Jul, 2023