基于相关掩蔽建模的紧凑型 Transformer 跟踪器

AAAIJan, 2023

基于相关掩蔽建模的紧凑型 Transformer 跟踪器

Compact Transformer Tracker with Correlative Masked Modeling

Zikai Song, Run Luo, Junqing Yu, Yi-Ping Phoebe Chen, Wei Yang

TL;DR本文证明了自注意力结构足以实现信息聚合，无需进行结构适应以及对于目标跟踪提取辨别特征和增强目标和搜索图像之间的通信。通过采用基本的视觉 Transformer（ViT）架构作为主跟踪器，并将模板和搜索图像进行特征嵌入，进而提出了一种紧凑的变换跟踪器。该跟踪器仅由一个 ViT 主干和一个框头组成，可以以每秒 40 帧的速度运行，并在多个测试数据集上实现了最先进的跟踪效果。

Abstract

transformer framework has been showing superior performances in visual object tracking for its great strength in information aggregation across the template and search image with the well-known attention mechanis

transformer self-attention visual object tracking compact tracker information aggregation

发现论文，激发创造

使用 Transformer 的视觉跟踪

本文介绍了一种基于 Transformer 编码器 - 解码器架构和强有力的注意机制的新型追踪器网络，通过自我关注模块和交叉注意力，提高了全局和丰富的背景信息获取，支持超越局部特征的追踪效果，在多个基准测试上表现出优异的性能。

May, 2021

Transformer 追踪

本文提出了一种基于 Transformer 注意力机制的特征融合方法，并将其应用于跟踪任务中。实现了在六个有挑战性的数据集上取得了很好的跟踪结果。最终得出了一个名为 TransT 的跟踪器，运行在 GPU 上的大约 50fps。

Mar, 2021

用于高效物体跟踪的可分离的自注意力与混合注意力变换器

本文提出了一种用于轻量级追踪的高效自适应混合注意力变压器架构，实现了对相关轻量级追踪策略的显著改进，达到了先进的性能，在多个数据集上运行时帧率较高，参数量较小。

Sep, 2023

稀疏 Transformer 视觉跟踪

通过引入稀疏注意力机制和双头预测器，成功地解决了基于 Transformer 模型的视觉跟踪任务中自注意力机制关注背景信息而影响性能的问题，并在 LaSOT、GOT-10k、TrackingNet 和 UAV123 等数据集中表现出显著的跟踪性能。相比 TransT，我们的方法将训练时间缩短了 75％。

May, 2022

基于移动视觉变压器的视觉目标跟踪

使用 MobileViT 作为骨干网络并采用融合模板和搜索区域表示的新方法，我们提出了一种轻量级、准确和快速的跟踪算法。实验结果表明，我们的基于 MobileViT 的追踪器 MVT 在大规模数据集 GOT10k 和 TrackingNet 上的性能超过了最新的轻量级追踪器，并且具有较高的推理速度。此外，我们的方法在模型参数减少 4.7 倍并在 GPU 上运行速度为 DiMP-50 追踪器的 2.8 倍的情况下，胜过了流行的 DiMP-50 追踪器。

Sep, 2023

高性能 Transformer 追踪

该论文提出了一种基于注意力机制的特征融合网络，可以有效地结合模板和搜索区域的特征，解决相关操作在设计高精度跟踪算法时可能遇到的局部最优问题。实验结果表明，该方法在七个流行数据集上取得了有前途的成果。

Mar, 2022

CNN 还是 ViT？透过卷积再探视觉 Transformer

本研究提出了一种新颖的高斯混合蒙版（GMM）方法，在没有预训练的情况下通过改进局部建模的方式来提升 Vision Transformer（ViT）在小数据集上的性能，实验证明该方法对于提升 ViT 的效果显著，几乎不增加额外参数或计算成本。

Sep, 2023

理解视觉 Transformer 中的鲁棒性

本研究阐述 Vision Transformers（ViTs）在自我关注机制的作用下，实现了对多种数据干扰的强大稳健性，并且提出了一族全注意网络（FANs），以加强注意通道处理设计的能力。我们的模型在 ImageNet-1k 和 ImageNet-C 上达到了 87.1％的最新准确度和 35.8％的 mCE，并且在两个下游任务中实现了最新的准确性和稳健性：语义分割和物体检测。

Apr, 2022

SegViTv2: 使用纯视觉 Transformer 探索高效持续语义分割

使用 Vision Transformers 进行语义分割的研究，提出了 SegViTv2，通过全局注意力机制和轻量级 Attention-to-Mask 模块构建出性能更高的解码器、通过 Shrunk++ 结构降低编码器的计算成本，同时在持续学习的环境下实现近乎零遗忘。实验结果表明，SegViT 优于当前流行的语义分割方法。

Jun, 2023

稀疏扫描先验的视觉转换器

利用人眼的稀疏扫描机制，通过引入稀疏扫描自注意机制（S^3A）和稀疏扫描视觉 Transformer（SSViT），有效降低计算负荷，达到在计算机视觉任务中出色的性能表现。

May, 2024