ZoomTrack:面向目标的非均匀调整以实现高效的视觉跟踪
通过从冻结的高分辨率 Transformer 追踪器中进行双重知识蒸馏,采用低分辨率输入来增强低分辨率 Transformer 追踪的性能,从而实现高效率和精度的 LoReTrack 追踪器。
May, 2024
本文介绍一种基于 ConvNets 和多模态视觉语言 (VL) 的追踪方法,通过模态混合器(ModaMixer)和不对称的 ConvNet 搜索,学习新颖的统一自适应 VL 表示,仅使用 ConvNets 能够在 SOTA 追踪中表现出色,甚至超过几个基于 Transformer 的 SOTA 追踪器。
Jul, 2022
通过引入稀疏注意力机制和双头预测器,成功地解决了基于 Transformer 模型的视觉跟踪任务中自注意力机制关注背景信息而影响性能的问题,并在 LaSOT、GOT-10k、TrackingNet 和 UAV123 等数据集中表现出显著的跟踪性能。相比 TransT,我们的方法将训练时间缩短了 75%。
May, 2022
本研究提出采用神经网络架构剪枝技术设计高度压缩的轻量级物体跟踪器,并提供最适合设计轻量级跟踪器的架构选择的比较研究。研究结果表明,在一定程度的压缩比下,使用 CNNs,transformers,以及两者的组合的 SOTA 跟踪器的稳定性不同,该研究为从现有 SOTA 方法中设计高效跟踪器提供了深入的见解。
Nov, 2022
通过使用动态网络路由所启发,本文提出了一种用于高效追踪的动态转换器框架,通过学习自动配置适当的推理路径来实现更好地利用可用计算预算,从而在相同运行速度下实现更高的性能。
Mar, 2024
本文提出了 TransTrack,该方法利用 Transformer 架构解决多目标跟踪问题,采用对象特征作为当前帧的查询并引入一组学习对象查询以检测新对象,通过实现单次检测和跟踪建立了新的联合检测和跟踪范例,在 MOT17 和 MOT20 基准测试中达到了 74.5%和 64.5%的 MOTA,是一种优秀的多目标跟踪方法。
Dec, 2020
本文介绍了一种基于 Transformer 编码器 - 解码器架构和强有力的注意机制的新型追踪器网络,通过自我关注模块和交叉注意力,提高了全局和丰富的背景信息获取,支持超越局部特征的追踪效果,在多个基准测试上表现出优异的性能。
May, 2021
通过 LoRAT 方法,将 Vision Transformers (ViT) 应用于实验室级资源内的视觉跟踪,通过解决独特的挑战和潜在域差异,包括将位置嵌入分解为共享的空间嵌入和独立的类型嵌入,并设计了仅基于多层感知器 (MLP) 的自由锚定头进行适应,以提高性能并降低计算开销。
Mar, 2024
使用 MobileViT 作为骨干网络并采用融合模板和搜索区域表示的新方法,我们提出了一种轻量级、准确和快速的跟踪算法。实验结果表明,我们的基于 MobileViT 的追踪器 MVT 在大规模数据集 GOT10k 和 TrackingNet 上的性能超过了最新的轻量级追踪器,并且具有较高的推理速度。此外,我们的方法在模型参数减少 4.7 倍并在 GPU 上运行速度为 DiMP-50 追踪器的 2.8 倍的情况下,胜过了流行的 DiMP-50 追踪器。
Sep, 2023
本文介绍了一种利用单实例层级注意机制的 Transformer 模块,用于实时视觉物体跟踪的 Exemplar Transformer。通过将 Exemplar Transformer 模块应用于 E.T.Track 视觉追踪器,该方法在 CPU 上可实现 47FPS 的速度,比其他基于 Transformer 的模型快 8 倍以上,同时在 LaSOT,OTB-100,NFS,TrackingNet 和 VOT-ST2020 数据集上始终优于其他实时追踪器。
Dec, 2021