探索轻量级分层视觉转换器用于高效视觉跟踪

ICCVAug, 2023

探索轻量级分层视觉转换器用于高效视觉跟踪

Exploring Lightweight Hierarchical Vision Transformers for Efficient Visual Tracking

Ben Kang, Xin Chen, Dong Wang, Houwen Peng, Huchuan Lu

TL;DR引入 HiT 模型和 Bridge Module 以及双图像位置编码技术，实现高速且性能优越的追踪模型。

Abstract

transformer-based visual trackers have demonstrated significant progress owing to their superior modeling capabilities. However, existing trackers are hampered by low speed, limiting their applicability on devices with limited computational power. To alleviate this problem, we propose

transformer-based visual trackers hit bridge module dual-image position encoding technique high speed

发现论文，激发创造

基于移动视觉变压器的视觉目标跟踪

使用 MobileViT 作为骨干网络并采用融合模板和搜索区域表示的新方法，我们提出了一种轻量级、准确和快速的跟踪算法。实验结果表明，我们的基于 MobileViT 的追踪器 MVT 在大规模数据集 GOT10k 和 TrackingNet 上的性能超过了最新的轻量级追踪器，并且具有较高的推理速度。此外，我们的方法在模型参数减少 4.7 倍并在 GPU 上运行速度为 DiMP-50 追踪器的 2.8 倍的情况下，胜过了流行的 DiMP-50 追踪器。

Sep, 2023

HiFT：用于航拍跟踪的分层特征变换器

本文提出了一种基于 Siamese 的跟踪方法，采用分层特征变换对多级卷积层生成的分层相似度图进行交互式融合，提高了全局的上下文信息，更高效地学习多级特征之间的相互依赖关系，并且实现了在实时速度情况下的实际应用，该方法在四个空中基准测试中被证明具有很好的效果。

Jul, 2021

HiT：层次化动量对比视频 - 文本检索的 Transformer 模型

提出了一种新的名为 Hierarchical Transformer (HiT) 的方法，其中包括 Hierarchical Cross-modal Contrastive Matching 和 Momentum Cross-modal Contrast 的元素，以解决现有交叉模式 Transformer 方法存在的局限性，并在三个主要的 Video-Text 检索基准数据集上实现了优越的实验结果。

Mar, 2021

快速视觉 Transformer 与 HiLo 注意力

LITv2 是一种基于直接速度评估的设计原则和使用新的自我注意机制 HiLo 的高效 ViT，可以极大地提高图像分类、密集检测和分割等主流视觉任务的效率。

May, 2022

探索用于高效目标跟踪的动态 Transformer

通过使用动态网络路由所启发，本文提出了一种用于高效追踪的动态转换器框架，通过学习自动配置适当的推理路径来实现更好地利用可用计算预算，从而在相同运行速度下实现更高的性能。

Mar, 2024

利用图像相关的归纳偏见在单支视觉跟踪中的应用

提出了一种自适应 ViT 模型预测跟踪器 (AViTMP)，通过引入适配器模块和联合目标状态嵌入来丰富基于 ViT 的稠密嵌入范式，并结合了稠密融合解码器和判别式目标模型以预测准确位置。通过双向循环跟踪验证的循环跟踪方法 CycleTrack 增强了跟踪的鲁棒性，还提出了双帧更新推理策略以有效处理长期场景中的挑战。大量实验证明，AViTMP 在长时间跟踪和鲁棒性方面达到了最先进的性能。

Oct, 2023

HiT: 基于分层 Transformers 的建筑物映射

深度学习方法在遥感影像中自动建筑物映射方面得到广泛研究。本文提出了一种简单且新颖的基于 Hierarchical Transformers 的建筑物映射方法 HiT，通过增加一个多边形头并行于分类和边界框回归头的两阶段检测结构实现了从高分辨率遥感影像中提取多边形建筑物的质量改进。经过包括分割、多边形化和正则化在内的一系列问题的分解，传统的建筑物映射方法常常导致复杂的推断过程、低准确率和差泛化能力。HiT 同时输出建筑物边界框和矢量多边形，并进行端到端的训练。多边形头采用编码 - 解码的 Transformer 架构来预测带有双向特点的序列化顶点，采用设计的双向多边形损失进行监督。此外，多边形头的编码器引入了分层注意机制和卷积操作，提供了顶点和边界级别的更多几何结构。在 CrowdAI 和 Inria 两个基准数据集上的综合实验表明，与现有技术方法相比，我们的方法在实例分割和多边形度量方面达到了最新的良好结果。此外，定性结果验证了我们的模型在复杂场景下的优越性和有效性。

Sep, 2023

具有分层池化的可扩展视觉 Transformer

本研究提出了 Hierarchical Visual Transformer (HVT) 模型，通过逐步分池视觉标记以缩短序列长度降低计算成本，从而改进了图像分类任务的性能，并在 ImageNet 和 CIFAR-100 数据集上实现了与竞争基线相比更好的结果。

Mar, 2021

基于示例变换器的高效视觉追踪

本文介绍了一种利用单实例层级注意机制的 Transformer 模块，用于实时视觉物体跟踪的 Exemplar Transformer。通过将 Exemplar Transformer 模块应用于 E.T.Track 视觉追踪器，该方法在 CPU 上可实现 47FPS 的速度，比其他基于 Transformer 的模型快 8 倍以上，同时在 LaSOT，OTB-100，NFS，TrackingNet 和 VOT-ST2020 数据集上始终优于其他实时追踪器。

Dec, 2021

观察再行动：高频注入变换器用于图像恢复

我们提出了 HIT，一种简单而有效的高频注入变压器用于图像恢复，通过设计窗口注入模块（WIM），将丰富的高频细节融入特征图，为高质量图像恢复提供可靠的参考，并使用双向交互模块（BIM）以相互增强的方式汇总不同尺度的特征，从而改善空间上和背景上的表示。

Mar, 2024