LoReTrack: 高效准确的低分辨率 Transformer 跟踪
通过对图像进行非均匀调整大小,我们可以在实现较小输入尺寸的同时接近或消除追踪速度快的模型与性能导向模型之间的差距,实验结果表明,这一方法在提高性能的同时能够达到更高的追踪速度。
Oct, 2023
通过 LoRAT 方法,将 Vision Transformers (ViT) 应用于实验室级资源内的视觉跟踪,通过解决独特的挑战和潜在域差异,包括将位置嵌入分解为共享的空间嵌入和独立的类型嵌入,并设计了仅基于多层感知器 (MLP) 的自由锚定头进行适应,以提高性能并降低计算开销。
Mar, 2024
通过使用动态网络路由所启发,本文提出了一种用于高效追踪的动态转换器框架,通过学习自动配置适当的推理路径来实现更好地利用可用计算预算,从而在相同运行速度下实现更高的性能。
Mar, 2024
DETRack 是一种高效的端到端视觉目标跟踪框架,利用编码器 - 解码器结构和可变形 Transformer 解码器作为目标头,显著减少了 GFLOPs 并通过新颖的一对多标签分配和辅助去噪技术加快了模型的收敛速度。实验证实了该方法的有效性和高效性。
Sep, 2023
本文提出了 TransTrack,该方法利用 Transformer 架构解决多目标跟踪问题,采用对象特征作为当前帧的查询并引入一组学习对象查询以检测新对象,通过实现单次检测和跟踪建立了新的联合检测和跟踪范例,在 MOT17 和 MOT20 基准测试中达到了 74.5%和 64.5%的 MOTA,是一种优秀的多目标跟踪方法。
Dec, 2020
Transformer-based visual trackers have been optimized for efficiency in real-time robotics applications on edge devices, introducing LiteTrack, which achieves a favorable trade-off between accuracy and efficiency.
Sep, 2023
本文提出了一种注意力相似性知识蒸馏方法,通过将从高分辨率网络得到的注意力地图作为教师传递到低分辨率网络作为学生,从而提高低分辨率图像的识别性能。该方法在各种低分辨率人脸相关基准上的实验证明其通常可以通过简单地传输精心构造的注意力图来改善低分辨率设置下的识别性能,优于现有技术水平。
Sep, 2022
本文提出了一种基于全 Transformer 结构的跟踪框架 MixFormerV2,通过引入四个特殊的预测 tokens,结合目标模板和搜索区域的 tokens,采用 Transformer 骨干网络进行跟踪预测,进而通过简单的 MLP heads 预测跟踪框和评估置信度得分,并提出了一种新的蒸馏模型的减少算法,包括密集到稀疏和深层到浅层的蒸馏,以进一步提高跟踪器性能。
May, 2023