自然语言驱动下更加灵活精准的目标跟踪:算法与基准评估
该研究提出一种利用自然语言描述的深度追踪器,通过使用 LSTM 跟踪器预测目标的更新,可以以每秒超过 30 帧的速度处理具有模糊语言注释的目标,展示出色的性能。
Jul, 2019
通过自然语言规范(TNL)追踪是在视频序列中根据初始帧的语言描述来稳定地定位目标的方法。本文提出了一种联合多模态追踪框架,通过提示调制模块和统一目标解码模块实现了时间视觉模板和语言表达之间的补充性,并直接在搜索图像上执行整合的查询,以一步预测目标位置。对 TNL2K、OTB-Lang、LaSOT 和 RefCOCOg 进行了大量实验证明了我们所提出方法的有效性,在追踪和地面连接方面与现有方法具有竞争性能。
Mar, 2024
本文提出一种联合视觉定位和追踪的框架,将定位和追踪转化为一个统一的任务,使用自然语言描述来确定目标;该框架使用多源关系建模模块和时间建模模块来构建自然语言描述和测试图像之间的关系,提供全局语义信息的指导和时间线索来提高适应性。
Mar, 2023
通过引入自然语言表示来提高多目标跟踪模型的域泛化能力,本文提出了两个模块(视觉上下文提示和视觉 - 语言混合),用于生成本征于不同跟踪场景的实例级伪文字描述,并通过在 MOT17 上训练和在 MOT20 上验证,观察到该方法显著提高了基于查询的跟踪器的泛化性能。
Dec, 2022
该研究提出了一种简单、灵活且有效的视觉 - 语言(VL)跟踪管道,称为 MMTrack,它将 VL 跟踪视为一个标记生成任务,并通过将语言描述和边界框序列化为一系列离散标记来实现。通过避免多个子任务的学习和手动设计的损失函数,该设计范式极大地降低了 VL 跟踪建模的复杂性,并允许跟踪器使用简单的交叉熵损失作为统一的优化目标。在 TNL2K、LaSOT、LaSOT_ext 和 OTB99-Lang 基准测试上的广泛实验表明,与其他最先进的方法相比,我们的方法取得了令人满意的结果。
Aug, 2023
提出 “Siamese Natural Language Tracker” 的新方法,应用于自然语言描述任务的跟踪。相关实验证明,该算法比 “Siamese trackers” 有显著提升,是目前最好的实时跟踪器之一。
Dec, 2019
单目标跟踪 UVLTrack 是一个统一的跟踪器,可同时处理边界框(BBOX)、自然语言(NL)和两者(NL+BBOX)的参考设置,并具有多种优势,包括模态一致的特征提取器、多模态对比性损失和模态自适应盒子头。在多个数据集上 extensive 实验结果显示,UVLTrack 在视觉跟踪、视觉语言跟踪和视觉定位方面具有有前景的性能。
Jan, 2024
本文介绍了基于自然语言的城市交通模式和车辆事件检测系统的扩展,提出了 CityFlow-NL 测评标准,并介绍了其在多目标多摄像头跟踪、自然语言检索以及时间定位方面的应用,特别侧重于车辆检索和车辆跟踪这两项任务的探索。
Jan, 2021
本文提出了一种使用自然语言描述对象并进行多目标跟踪的新范例,介绍了包含文字描述的视频数据集 GroOT,提出了用于这一任务的两个新的评估协议和评估度量,并采用基于 transformer 的 MENDER 方法开发了一种高效的模型,证明其在准确性和效率方面均超越了其他两阶段设计,跟踪精度提高了 14.7%,速度提升了 4 倍。
May, 2023
本文提出了一种新颖的伪监督方法,用于零样本学习自然语言视频定位模型,并在 Charades-STA 和 ActivityNet-Captions 数据集上实验验证该方法相较于其他方法性能有明显提升。
Aug, 2021