Transformer 跟踪的信息流优化
本文提出了一种基于适应性标记划分的关系建模方法,通过与模板标记的交互来改善现有的单流跟踪器中可能出现的目标 - 背景混淆问题,并引入注意掩蔽策略和 Gumbel-Softmax 技术,以促进标记划分模块的并行计算和端到端的学习,在六个具有挑战性的基准测试中实现了最先进的性能。
Mar, 2023
提出一种新型的单流跟踪框架 (OSTrack),通过双向信息流桥接模板搜索图像对来统一特征学习和关系建模,从而实现动态提取具有区分度的目标定向特征,同时提出了一种在网络中的候选早期消除模块来进一步提高推理效率。该方法在多个基准测试中都取得了最先进的性能,并在一次性跟踪基准 GOT-10k 上实现了令人印象深刻的结果。
Mar, 2022
提出了一种仅基于 Transformer 的连体双支路网络,用于目标跟踪。该方法比第一步使用 CNN 提取特征,然后使用 Transformer 融合它们的最佳方法产生更好或可比的结果,在 GOT-10k 和 VOT2020 基准上优于现有技术。此外,该方法实现了实时推理速度(约 40fps)并且代码和模型将被公布。
Dec, 2021
提出了一种鲁棒的目标建模框架(ROMTrack),同时对固有模板和混合模板特征进行建模,通过结合目标对象的固有特征和搜索区域的引导来抑制有害干扰物,并使用混合模板提取与目标相关的特征,从而实现更强大的目标建模框架。
Aug, 2023
本文介绍了一种基于 Transformer 编码器 - 解码器架构和强有力的注意机制的新型追踪器网络,通过自我关注模块和交叉注意力,提高了全局和丰富的背景信息获取,支持超越局部特征的追踪效果,在多个基准测试上表现出优异的性能。
May, 2021
我们提出了一种新颖的知识转移框架,引入连续归一化流进行渐进知识转化,并利用多步采样策略实现精准知识传递。通过引入随机插值,我们理论上证明了 FM-KT 的训练目标相当于最小化教师特征映射或逻辑负对数似然的上界。此外,FM-KT 可以看作是一种独特的隐式集成方法,从而实现性能提升。通过对 CIFAR-100、ImageNet-1k 和 MS-COCO 数据集进行大量实验证明了我们提出的方法在相关比较方法中的可扩展性和最先进性能。
Feb, 2024
在线图像跟踪中,稀疏的时间关系会限制引用帧和搜索帧之间的联合处理,为了解决这一问题,本文提出了一种名为 ODTrack 的简洁、灵活、有效的视频级跟踪方法,通过在线令牌传播方式密集地关联视频帧的背景关系,从而在多个基准测试中取得了先进的性能,并且保持实时速度运行。
Jan, 2024
本文证明了自注意力结构足以实现信息聚合,无需进行结构适应以及对于目标跟踪提取辨别特征和增强目标和搜索图像之间的通信。通过采用基本的视觉 Transformer(ViT)架构作为主跟踪器,并将模板和搜索图像进行特征嵌入,进而提出了一种紧凑的变换跟踪器。该跟踪器仅由一个 ViT 主干和一个框头组成,可以以每秒 40 帧的速度运行,并在多个测试数据集上实现了最先进的跟踪效果。
Jan, 2023
本文提出了一种优化基于追踪算法,采用 Transformer 模型实现的目标模型预测模块,并进一步扩展模型预测器以估计第二组权重以实现精确的边界框回归,该跟踪器在多个跟踪数据集上进行了广泛的实验,并在三个基准测试中取得了 68.5% 的 AUC 值。
Mar, 2022
本文提出了一个基于 transformer 的视频物体跟踪器,在 Siamese-like 跟踪管道中,编码器在模板中注入了基于注意力机制的特征强化以增强模型生成质量,解码器传递上一个模板的跟踪线索到当前帧以方便目标搜索,结果本方法作为一种最先进的记录在普遍跟踪基准上获得了成功。
Mar, 2021