单模型和任意模态的视频目标跟踪

Nov, 2023

单模型和任意模态的视频目标跟踪

Single-Model and Any-Modality for Video Object Tracking

Zongwei Wu, Jilai Zheng, Xiangxuan Ren, Florin-Alexandru Vasluianu, Chao Ma...

TL;DR通过低秩分解和重构技术，我们提出了一种统一跟踪器 Un-Track，该方法通过学习共同的潜在空间来处理任何模态，并且只使用 RGB-X 对来学习共同的表示，在单个基于转换器的体系结构中实现了有效的统一和适应任何缺失的模态，同时无需进行模态特定的微调。在五个具有不同模态的基准数据集上的广泛比较表明，Un-Track 超过了最先进的统一跟踪器和经过模态特定微调的对应物，验证了我们的有效性和实用性。

Abstract

In the realm of video object tracking, auxiliary modalities such as depth, thermal, or event data have emerged as valuable assets to complement the RGB trackers. In practice, most existing RGB trackers learn a single set of parameters to use them across datasets and applications. Howev

video object tracking multi-modality tracking un-track common latent space modality-specific representations

发现论文，激发创造

朝向通用和盲目的 RGB-X 追踪器

我们展示了在 RGB-X 视频目标跟踪上，在统一化时的专门化不必要，通过使用一种称为 XTrack 的单一模型跟踪器，在推理过程中对任何模态 X 保持盲目，以实现输入模态的统一，并实现专门模态的信息表示，从只有配对数据开始，通过简单的训练过程有效地整合了多标签分类损失和路由函数，从而达到了与模态特定模型相媲美的性能。

May, 2024

高效 RGB-T 跟踪的统一单级 Transformer 网络

我们提出了一个统一的单阶段 Transformer RGB-T 跟踪网络，名为 USTrack，它通过自注意机制将上述三个阶段统一到一个 ViT（Vision Transformer）主干中，并利用模态之间的相互作用提取融合特征，增强预测的目标 - 背景区分度，同时通过模态可靠性的特征选择机制改善跟踪性能。通过在三个流行的 RGB-T 跟踪基准上进行广泛实验，证明我们的方法在保持最快推理速度 84.2FPS 的同时，实现了新的最先进性能，特别是在 VTUAV 数据集的短期和长期子集上，MPR/MSR 分别增加了 11.1% 和 11.3%。

Aug, 2023

一体化视觉目标跟踪：基于基础模型和高效调优

基于首帧的初始外观，视觉目标跟踪旨在定位每一帧的目标对象。根据输入的不同类型，跟踪任务可分为 RGB 跟踪和 RGB+X（如 RGB+N 和 RGB+D）跟踪。本文提出了一个统一多种跟踪任务的通用框架，称之为 OneTracker。OneTracker 首先对称为 Foundation Tracker 的 RGB 跟踪器进行大规模预训练，使其具备估计目标对象位置的稳定能力，然后将其他模态信息视为提示，在 Foundation Tracker 的基础上构建 Prompt Tracker。通过冻结 Foundation Tracker 并仅调整一些额外可训练参数，Prompt Tracker 抑制了 Foundation Tracker 的强定位能力，并在下游的 RGB+X 跟踪任务上实现了参数高效微调。为了评估我们的通用框架 OneTracker 的有效性，我们在 11 个基准测试中对 6 个常见的跟踪任务进行了大量实验，结果显示 OneTracker 优于其他模型并取得了最先进的性能。

Mar, 2024

统一视觉和视觉 - 语言跟踪的对比学习

单目标跟踪 UVLTrack 是一个统一的跟踪器，可同时处理边界框（BBOX）、自然语言（NL）和两者（NL+BBOX）的参考设置，并具有多种优势，包括模态一致的特征提取器、多模态对比性损失和模态自适应盒子头。在多个数据集上 extensive 实验结果显示，UVLTrack 在视觉跟踪、视觉语言跟踪和视觉定位方面具有有前景的性能。

Jan, 2024

多模态物体跟踪的卓越性能

多模态目标跟踪是一个新兴领域，它利用来自各种模态的数据（比如视觉、深度、红外热像、事件、语言和音频）来估计视频序列中任意物体的状态。本研究综述了现有多模态目标跟踪任务，并分析总结了各个任务的常用数据集和主流的跟踪算法，重点关注了它们基于自监督学习、提示学习、知识蒸馏、生成模型和状态空间模型等技术范式。同时，在此网址上维护了一个持续更新的多模态目标跟踪论文清单。

May, 2024

多模态追踪的双向适配器

通过引入多模态图像以弥补单一成像传感器的限制，我们提出了一种基于通用双向适配器的新型多模态视觉提示跟踪模型，通过交互式互补多模态信息，实现了优良的跟踪性能。

Dec, 2023

跨模态正交高阶增强的 RGB - 事件 Transformer 跟踪器

本研究针对 RGB 视频和事件数据的跨模态物体追踪问题，通过利用预先训练的视觉变换器 (ViT) 的巨大潜力，探索了构建复杂的跨模态融合网络的可能性。特别地，我们精心研究了一种插件式训练增强方法，以鼓励 ViT 填补两种模态之间巨大分布差异，并增强其相互作用，从而提高其能力。具体而言，我们提出了一种掩码建模策略，随机屏蔽一些标记，增加了交互效果，使用高阶模型进行正则化。通过广泛的实验验证，我们的插件式训练增强技术在跟踪精度和成功率等方面极大提升了最先进的单流和双流跟踪器，有望为跨模态数据建模的领域带来新的见解。代码将公开提供。

Jul, 2023

SDSTrack: 自蒸馏对称适配器学习用于多模态视觉目标跟踪

我们提出了一种新的对称多模态跟踪框架 SDSTrack，通过轻量级适应和补充掩膜路径蒸馏策略，提高了跟踪器在复杂环境中的鲁棒性，并在各种多模态跟踪场景中表现出优异结果。

Mar, 2024

多适配器 RGBT 跟踪

该论文提出一种多适配器卷积网络（MANet），用于 RGBT 跟踪中的模态共享、模态特定和实例感知特征学习，以及采用并行结构的适配器以减少计算复杂度，与其他 RGB 和 RGBT 跟踪算法相比表现出杰出的性能。

Jul, 2019

统一 Transformer 物体跟踪器

该论文介绍了一种名为 Unified Transformer Tracker (UTT) 的模型，通过该模型，研究者们可以在同一框架下解决不同场景下的目标跟踪问题。该模型可以同时进行单目标跟踪（Single Object Tracking）和多目标跟踪（Multiple Object Tracking），并通过端到端训练来优化模型的表现。

Mar, 2022