高性能 Transformer 追踪
本文提出了一种基于 Transformer 注意力机制的特征融合方法,并将其应用于跟踪任务中。实现了在六个有挑战性的数据集上取得了很好的跟踪结果。最终得出了一个名为 TransT 的跟踪器,运行在 GPU 上的大约 50fps。
Mar, 2021
本文介绍了一种基于 Transformer 编码器 - 解码器架构和强有力的注意机制的新型追踪器网络,通过自我关注模块和交叉注意力,提高了全局和丰富的背景信息获取,支持超越局部特征的追踪效果,在多个基准测试上表现出优异的性能。
May, 2021
我们提出了一种基于自注意力 / 交叉注意力的目标依赖特征网络,通过深度嵌入多层特征的交叉图像特征相关性,抑制了非目标特征,从而实现了实例变化的特征提取,在不需要额外的相关步骤的情况下可以直接用于预测目标位置,且可以灵活地在丰富的无配对图像上进行预训练,实现了较快的收敛速度和最先进的实时跟踪性能。
Mar, 2022
稀疏 LiDAR 点云数据仍然存在挑战,因此本文提出了一种多相关 Siamese Transformer 网络,通过在每个阶段末尾基于稀疏支柱进行特征相关,以学习搜索区域的特征并保持模板的独立特征。该算法在 KITTI、nuScenes 和 Waymo 数据集上取得了有希望的性能,并提供了对每个组件有效性的消融实验研究。
Dec, 2023
本文使用 Siamese Transformer 网络,结合点云的形态信息和深度信息,在 3D 单目标跟踪任务中实现了鲁棒的交叉相关学习,取得了与 KITTI、nuScenes 和 Waymo 数据集上最优的表现。
Jul, 2022
开发强大和区分性外观模型一直是视觉目标跟踪领域中的一个长期研究挑战。我们提出了一个受 Transformer 启发的新颖单分支跟踪框架 ——SuperSBT,通过在特征网络的多个层次深度嵌入跨图像特征相关性,从而压制非目标特征,实现目标感知特征提取。与传统的双分支 Siamese 跟踪法不同,SuperSBT 能直接用于预测目标位置,提高了跟踪速度,并在多个基准测试上展现了优异的结果。
Jan, 2024
本文提出了一种基于 transformer 架构的特征融合网络,以解决 3D 目标跟踪中的关键问题。该网络利用自注意机制捕捉点云中不同区域之间的相互关系,并使用交叉注意力将目标提示信息融入特征中,从而提高相似度计算的效率。在 KITTI 数据集上的实验结果表明,该方法取得了最新的最佳表现。
Oct, 2021
本文证明了自注意力结构足以实现信息聚合,无需进行结构适应以及对于目标跟踪提取辨别特征和增强目标和搜索图像之间的通信。通过采用基本的视觉 Transformer(ViT)架构作为主跟踪器,并将模板和搜索图像进行特征嵌入,进而提出了一种紧凑的变换跟踪器。该跟踪器仅由一个 ViT 主干和一个框头组成,可以以每秒 40 帧的速度运行,并在多个测试数据集上实现了最先进的跟踪效果。
Jan, 2023
本文提出了一种简单的基于目标感知的 Siamese 图注意力网络解决视觉跟踪中的相似性匹配问题,通过建立完全二分图建立目标和搜索区域之间的部分对部分对应关系,并应用图注意力机制从模板特征传播目标信息到搜索特征,使用目标感知区域选择机制适配不同对象的大小和纵横比变化,实验证明该算法优于现有基于深度学习的最先进跟踪器。
Nov, 2020
本文提出了一个基于 transformer 的视频物体跟踪器,在 Siamese-like 跟踪管道中,编码器在模板中注入了基于注意力机制的特征强化以增强模型生成质量,解码器传递上一个模板的跟踪线索到当前帧以方便目标搜索,结果本方法作为一种最先进的记录在普遍跟踪基准上获得了成功。
Mar, 2021