利用图像相关的归纳偏见在单支视觉跟踪中的应用

Oct, 2023

利用图像相关的归纳偏见在单支视觉跟踪中的应用

Exploiting Image-Related Inductive Biases in Single-Branch Visual Tracking

Chuanming Tang, Kai Wang, Joost van de Weijer, Jianlin Zhang, Yongmei Huang

TL;DR提出了一种自适应 ViT 模型预测跟踪器 (AViTMP)，通过引入适配器模块和联合目标状态嵌入来丰富基于 ViT 的稠密嵌入范式，并结合了稠密融合解码器和判别式目标模型以预测准确位置。通过双向循环跟踪验证的循环跟踪方法 CycleTrack 增强了跟踪的鲁棒性，还提出了双帧更新推理策略以有效处理长期场景中的挑战。大量实验证明，AViTMP 在长时间跟踪和鲁棒性方面达到了最先进的性能。

Abstract

Despite achieving state-of-the-art performance in visual tracking, recent single-branch trackers tend to overlook the weak prior assumptions associated with the vision transformer (ViT) →

visual tracking vision transformer encoder inference pipeline discriminative trackers

发现论文，激发创造

基于移动视觉变压器的视觉目标跟踪

使用 MobileViT 作为骨干网络并采用融合模板和搜索区域表示的新方法，我们提出了一种轻量级、准确和快速的跟踪算法。实验结果表明，我们的基于 MobileViT 的追踪器 MVT 在大规模数据集 GOT10k 和 TrackingNet 上的性能超过了最新的轻量级追踪器，并且具有较高的推理速度。此外，我们的方法在模型参数减少 4.7 倍并在 GPU 上运行速度为 DiMP-50 追踪器的 2.8 倍的情况下，胜过了流行的 DiMP-50 追踪器。

Sep, 2023

通过探索归纳偏见推动图像识别及更广泛领域的视觉 Transformer 进化 (ViTAEv2)

本文提出了一种利用先验卷积 IB（intrinsic bias）的 Vision transformer 架构（ViTAE）来解决长程依赖建模中存在的局限性，并在 ImageNet 及其他数据集上进行了实验证明其在图像分类任务上的优越性。

Feb, 2022

基于相关掩蔽建模的紧凑型 Transformer 跟踪器

本文证明了自注意力结构足以实现信息聚合，无需进行结构适应以及对于目标跟踪提取辨别特征和增强目标和搜索图像之间的通信。通过采用基本的视觉 Transformer（ViT）架构作为主跟踪器，并将模板和搜索图像进行特征嵌入，进而提出了一种紧凑的变换跟踪器。该跟踪器仅由一个 ViT 主干和一个框头组成，可以以每秒 40 帧的速度运行，并在多个测试数据集上实现了最先进的跟踪效果。

Jan, 2023

在小数据集上通过本地归纳偏置引入提高视觉 Transformer 的性能

本文提出基于自注意力块的局部信息增强模块 LIFE，通过提取补丁级别的局部信息并将其合并到 ViTs 的嵌入中，在小尺寸图像分类数据集上改进了 ViTs 的性能，并将其推广到目标检测和语义分割等下游任务，在此基础上，引入了一种新的可视化方法 —— 密集注意力 Roll-Out，特别适用于密集预测任务。

May, 2023

视频实例分割的时间高效视觉 Transformer

提出了一种名为 TeViT 的视觉 Transformer，它在视频实例分割任务中高效地对关键的时间信息进行建模，并在三个广泛采用的视觉实例分割基准测试中取得了最新的结果。

Apr, 2022

AdaViT: 自适应视觉 Transformer 用于高效图像识别

本文提出了 AdaViT，一个自适应的计算框架，旨在提高视觉变换器的推理效率，而只有 0.8％的准确率下降，并在不同的计算预算条件下实现了良好的效率 / 准确性平衡。

Nov, 2021

探索轻量级分层视觉转换器用于高效视觉跟踪

引入 HiT 模型和 Bridge Module 以及双图像位置编码技术，实现高速且性能优越的追踪模型。

Aug, 2023

用于密集预测的视觉 Transformer 适配器

本文提出一种基于适配器的简单而强大的密集预测任务适配器，用于解决 Vision Transformer (ViT) 在密集预测中的性能较差问题，并成功应用于目标检测、实例分割和语义分割等多种密集预测任务中，其中 ViT-Adapter-L 模型在不使用额外数据的情况下，在 COCO test-dev 数据集上实现了 state-of-the-art 的性能。

May, 2022

探索内在归纳偏差的视觉变换器高级版

论文提出了一种新的具有局部偏好和尺度不变性的图像模型 ——ViTAE，其利用多个卷积模块降采样并将输入图像嵌入到多尺度上下文具有丰富的令牌中，从而学习到具有鲁棒性的对象特征表示。

Jun, 2021

PriViT：用于快速私密推理的视觉 Transformer

使用 PriViT 算法，通过温和改变 Vision Transformer 结构中的非线性变换，实现了在维持预测准确性的同时，适应安全多方计算（MPC）协议的隐私预测，相比于现有方案，PriViT 在延迟 - 准确性的 Pareto 最优曲线方面取得改进。

Oct, 2023