提出了一种利用时间上下文的双层框架 (TCTrack),用于实现更强大的现实世界视觉跟踪,并在特征提取和相似度图优化方面进行了改进。
Aug, 2023
利用轻量级单层变压器编码器模型化时空关系,通过基于特征对齐的对比正则化损失将特征引入数据关联阶段,以提高现有跟踪网络的性能和解释性。
Apr, 2024
使用 Transformer 和时空嵌入的 MO3TR 方法,具有空间和时间注意机制,无需显式的数据聚类模块或任何启发式方法,成功解决了多物体追踪过程中的诸多挑战,表现方面同多个 popular MOT 图像和视频基准测试的现有最先进技术几乎相当或更好。
Mar, 2021
提出了一个自适应的带有时空转换器的跟踪器(命名为 AQATrack),通过采用简单的自回归查询来有效地学习时空信息,从而改善了目标跟踪中手动设计组件过多的问题,并设计了新颖的注意力机制来生成当前帧的新查询,最终使用空间 - 时间信息融合模块(STM)定位目标对象,实验结果表明,该方法在六个流行的跟踪基准上显著提高了跟踪器的性能:LaSOT、LaSOText、TrackingNet、GOT-10k、TNL2K 和 UAV123。
Mar, 2024
本文提出一种新的追踪架构,它以编码 - 解码变压器作为核心组件,将目标追踪转化为直接边界框预测问题,从而实现了端到端模型,无需使用任何先前设定的锚点或提案等后处理步骤。
本文提出了一种全面利用时间上下文进行航空追踪的框架,名为 TCTrack,该框架在特征提取和相似度图优化方面使用了时间上下文。实验表明,TCTrack 在四个航空追踪基准测试数据集上的效果令人印象深刻,并且在 NVIDIA Jetson AGX Xavier 上实现了高达 27 FPS 的高速。
Mar, 2022
本文提出了一个基于 transformer 的视频物体跟踪器,在 Siamese-like 跟踪管道中,编码器在模板中注入了基于注意力机制的特征强化以增强模型生成质量,解码器传递上一个模板的跟踪线索到当前帧以方便目标搜索,结果本方法作为一种最先进的记录在普遍跟踪基准上获得了成功。
本论文提出了一个新的序列到序列学习框架 SeqTrack 来进行视觉跟踪,将视觉跟踪作为一个序列生成问题,该问题可以在自回归的基础上预测物体的边界框,SeqTrack 架构只采用一个简单的编码器解码器变压器架构,并在多个基准测试上达到了竞争性能水平。
Apr, 2023
本文提出了一种基于分层注意力循环模型的目标跟踪算法,该算法可以在视频中跟踪单个物体,并通过梯度方法进行完全可微分且纯数据驱动的训练。为了改进训练收敛性,在损失函数中增加了与跟踪相关的辅助任务项。该模型在 KTH 活动识别数据集和 KITTI 物体跟踪数据集上进行了评估。
Jun, 2017
通过整合空间关系和时间信息,本文提出了一种新型的少样本动作识别方法 Spatial Alignment Cross Transformer (SA-CT),并利用预训练模型进一步提升性能。