ACTrack: 为视觉目标跟踪添加时空条件

Feb, 2024

ACTrack: 为视觉目标跟踪添加时空条件

ACTrack: Adding Spatio-Temporal Condition for Visual Object Tracking

Yushan Han, Kaer Huang

TL;DR我们提出了 ACTrack，一个新的跟踪框架，通过冻结参数来保留预训练的 Transformer 骨干的质量和能力，并使用可训练的轻量级加法网络来建模跟踪中的时空关系，实验结果证明 ACTrack 能够在训练效率和跟踪性能之间取得平衡。

Abstract

Efficiently modeling spatio-temporal relations of objects is a key challenge in visual object tracking (VOT). Existing methods track by appearance-based similarity or long-term relation modeling, resulting in ric

spatio-temporal relations object tracking tracking framework transformer backbone tracking performance

发现论文，激发创造

基于时间上下文的真实世界视觉跟踪

提出了一种利用时间上下文的双层框架 (TCTrack)，用于实现更强大的现实世界视觉跟踪，并在特征提取和相似度图优化方面进行了改进。

Aug, 2023

多目标跟踪的表示对齐对比正则化

利用轻量级单层变压器编码器模型化时空关系，通过基于特征对齐的对比正则化损失将特征引入数据关联阶段，以提高现有跟踪网络的性能和解释性。

Apr, 2024

通过空间和时间变换器进行端到端多目标跟踪，超越两帧限制

使用 Transformer 和时空嵌入的 MO3TR 方法，具有空间和时间注意机制，无需显式的数据聚类模块或任何启发式方法，成功解决了多物体追踪过程中的诸多挑战，表现方面同多个 popular MOT 图像和视频基准测试的现有最先进技术几乎相当或更好。

Mar, 2021

自适应跟踪的自回归查询与时空 Transformer

提出了一个自适应的带有时空转换器的跟踪器（命名为 AQATrack），通过采用简单的自回归查询来有效地学习时空信息，从而改善了目标跟踪中手动设计组件过多的问题，并设计了新颖的注意力机制来生成当前帧的新查询，最终使用空间 - 时间信息融合模块（STM）定位目标对象，实验结果表明，该方法在六个流行的跟踪基准上显著提高了跟踪器的性能：LaSOT、LaSOText、TrackingNet、GOT-10k、TNL2K 和 UAV123。

Mar, 2024

学习时空变换器进行视觉跟踪

本文提出一种新的追踪架构，它以编码 - 解码变压器作为核心组件，将目标追踪转化为直接边界框预测问题，从而实现了端到端模型，无需使用任何先前设定的锚点或提案等后处理步骤。

Mar, 2021

TCTrack: 航空跟踪的时间上下文

本文提出了一种全面利用时间上下文进行航空追踪的框架，名为 TCTrack，该框架在特征提取和相似度图优化方面使用了时间上下文。实验表明，TCTrack 在四个航空追踪基准测试数据集上的效果令人印象深刻，并且在 NVIDIA Jetson AGX Xavier 上实现了高达 27 FPS 的高速。

Mar, 2022

Transformer Meets Tracker: 挖掘时间上下文，提高鲁棒性视觉跟踪

本文提出了一个基于 transformer 的视频物体跟踪器，在 Siamese-like 跟踪管道中，编码器在模板中注入了基于注意力机制的特征强化以增强模型生成质量，解码器传递上一个模板的跟踪线索到当前帧以方便目标搜索，结果本方法作为一种最先进的记录在普遍跟踪基准上获得了成功。

Mar, 2021

SeqTrack：用于视觉目标追踪的序列到序列学习

本论文提出了一个新的序列到序列学习框架 SeqTrack 来进行视觉跟踪，将视觉跟踪作为一个序列生成问题，该问题可以在自回归的基础上预测物体的边界框，SeqTrack 架构只采用一个简单的编码器解码器变压器架构，并在多个基准测试上达到了竞争性能水平。

Apr, 2023

分层注意力循环跟踪

本文提出了一种基于分层注意力循环模型的目标跟踪算法，该算法可以在视频中跟踪单个物体，并通过梯度方法进行完全可微分且纯数据驱动的训练。为了改进训练收敛性，在损失函数中增加了与跟踪相关的辅助任务项。该模型在 KTH 活动识别数据集和 KITTI 物体跟踪数据集上进行了评估。

Jun, 2017

关于少样本动作识别中空间关系的重要性

通过整合空间关系和时间信息，本文提出了一种新型的少样本动作识别方法 Spatial Alignment Cross Transformer (SA-CT)，并利用预训练模型进一步提升性能。

Aug, 2023