视觉跟踪的鲁棒物体建模

ICCVAug, 2023

Robust Object Modeling for Visual Tracking

Yidong Cai, Jie Liu, Jie Tang, Gangshan Wu

TL;DR提出了一种鲁棒的目标建模框架（ROMTrack），同时对固有模板和混合模板特征进行建模，通过结合目标对象的固有特征和搜索区域的引导来抑制有害干扰物，并使用混合模板提取与目标相关的特征，从而实现更强大的目标建模框架。

Abstract

object modeling has become a core part of recent tracking frameworks. Current popular tackers use transformer attention to extract the tem

object modeling tracking frameworks transformer attention hybrid template features robust object modeling framework

发现论文，激发创造

基于时空多模态标记的 Transformer RGBT 跟踪

提出了一种新颖的 Transformer RGBT 跟踪方法，通过融合静态多模态模板和多模态搜索区域中的时空多模态令牌来处理目标外观变化，以实现鲁棒的 RGBT 跟踪，并通过注意机制增强多模态模板令牌的目标特征，从而促进多模态增强的目标变化信息的传递。该方法在三个 RGBT 基准数据集上的实验证明了与其他最先进的跟踪算法相比具有竞争力的性能，帧率可达 39.1。

Jan, 2024

全面跟踪物体表征

该研究提出了一种建立完整物体表示进行跟踪的框架，通过使用多样的物体模板和差异度计量法，可以提高跟踪性能和健壮性，而不降低速度，并适用于需要视觉理解对象的进一步任务。

Jul, 2019

使用 Transformer 的视觉跟踪

本文介绍了一种基于 Transformer 编码器 - 解码器架构和强有力的注意机制的新型追踪器网络，通过自我关注模块和交叉注意力，提高了全局和丰富的背景信息获取，支持超越局部特征的追踪效果，在多个基准测试上表现出优异的性能。

May, 2021

基于动态记忆网络的视觉追踪

该研究提出了一种动态记忆网络用于视觉跟踪，能够自适应目标外观变化以提高跟踪准确度，避免模型过度学习，辅助分类损失有助于提升跟踪性能，同时耗时小。

Jul, 2019

基于多模态混合特征提取和基于 Transformer 的融合的可靠物体跟踪

本研究提出了一种新型的多模态混合跟踪器 (MMHT)，利用基于帧事件的数据进行可靠的单目标跟踪，通过使用人工神经网络（ANN）和脉冲神经网络（SNN）构建混合骨干，并使用增强的基于 Transformer 的模块通过注意机制融合多模态特征，构建多尺度和多维度的视觉特征空间，从而实现了有益的特征建模。实验结果表明，MMHT 模型在解决视觉目标跟踪任务中面临的挑战方面具有竞争力。

May, 2024

Transformer 跟踪的广义关系建模

本文提出了一种基于适应性标记划分的关系建模方法，通过与模板标记的交互来改善现有的单流跟踪器中可能出现的目标 - 背景混淆问题，并引入注意掩蔽策略和 Gumbel-Softmax 技术，以促进标记划分模块的并行计算和端到端的学习，在六个具有挑战性的基准测试中实现了最先进的性能。

Mar, 2023

基于相关掩蔽建模的紧凑型 Transformer 跟踪器

本文证明了自注意力结构足以实现信息聚合，无需进行结构适应以及对于目标跟踪提取辨别特征和增强目标和搜索图像之间的通信。通过采用基本的视觉 Transformer（ViT）架构作为主跟踪器，并将模板和搜索图像进行特征嵌入，进而提出了一种紧凑的变换跟踪器。该跟踪器仅由一个 ViT 主干和一个框头组成，可以以每秒 40 帧的速度运行，并在多个测试数据集上实现了最先进的跟踪效果。

Jan, 2023

学习动态内存网络实现物体跟踪

本文提出了一种动态记忆网络来适应目标物体外观变化的模板适应方法，使用 LSTM 进行记忆控制，并通过注意力机制聚焦于潜在目标，应用门控残差模板学习控制检索记忆的数量，通过更新外部内存适应目标的外观变化，实验结果表明本文提出的 MemTrack 方法在 OTB 和 VOT 测试中表现良好，且实时速度为 50fps。

Mar, 2018

Transformer Meets Tracker: 挖掘时间上下文，提高鲁棒性视觉跟踪

本文提出了一个基于 transformer 的视频物体跟踪器，在 Siamese-like 跟踪管道中，编码器在模板中注入了基于注意力机制的特征强化以增强模型生成质量，解码器传递上一个模板的跟踪线索到当前帧以方便目标搜索，结果本方法作为一种最先进的记录在普遍跟踪基准上获得了成功。

Mar, 2021

将更多关注转移到视觉语言对象追踪上

我们设计了一种有效的视觉 - 语言表示方法，同时为追踪问题构建了一个大型带有语言注释的数据库。通过引入异构架构搜索和模态混合器等核心技术，以及对不同模态之间进行对比损失的引入，我们能够显著改善追踪问题的解决方案，并期望将更多注意力转向视觉 - 语言追踪，为未来的多样化多模态消息追踪开辟更多可能性。

Jul, 2023