Transformer 追踪
该论文提出了一种基于注意力机制的特征融合网络,可以有效地结合模板和搜索区域的特征,解决相关操作在设计高精度跟踪算法时可能遇到的局部最优问题。实验结果表明,该方法在七个流行数据集上取得了有前途的成果。
Mar, 2022
本文介绍了一种基于 Transformer 编码器 - 解码器架构和强有力的注意机制的新型追踪器网络,通过自我关注模块和交叉注意力,提高了全局和丰富的背景信息获取,支持超越局部特征的追踪效果,在多个基准测试上表现出优异的性能。
May, 2021
本文证明了自注意力结构足以实现信息聚合,无需进行结构适应以及对于目标跟踪提取辨别特征和增强目标和搜索图像之间的通信。通过采用基本的视觉 Transformer(ViT)架构作为主跟踪器,并将模板和搜索图像进行特征嵌入,进而提出了一种紧凑的变换跟踪器。该跟踪器仅由一个 ViT 主干和一个框头组成,可以以每秒 40 帧的速度运行,并在多个测试数据集上实现了最先进的跟踪效果。
Jan, 2023
本文提出了一种基于 transformer 架构的特征融合网络,以解决 3D 目标跟踪中的关键问题。该网络利用自注意机制捕捉点云中不同区域之间的相互关系,并使用交叉注意力将目标提示信息融入特征中,从而提高相似度计算的效率。在 KITTI 数据集上的实验结果表明,该方法取得了最新的最佳表现。
Oct, 2021
稀疏 LiDAR 点云数据仍然存在挑战,因此本文提出了一种多相关 Siamese Transformer 网络,通过在每个阶段末尾基于稀疏支柱进行特征相关,以学习搜索区域的特征并保持模板的独立特征。该算法在 KITTI、nuScenes 和 Waymo 数据集上取得了有希望的性能,并提供了对每个组件有效性的消融实验研究。
Dec, 2023
开发强大和区分性外观模型一直是视觉目标跟踪领域中的一个长期研究挑战。我们提出了一个受 Transformer 启发的新颖单分支跟踪框架 ——SuperSBT,通过在特征网络的多个层次深度嵌入跨图像特征相关性,从而压制非目标特征,实现目标感知特征提取。与传统的双分支 Siamese 跟踪法不同,SuperSBT 能直接用于预测目标位置,提高了跟踪速度,并在多个基准测试上展现了优异的结果。
Jan, 2024
我们提出了一种基于自注意力 / 交叉注意力的目标依赖特征网络,通过深度嵌入多层特征的交叉图像特征相关性,抑制了非目标特征,从而实现了实例变化的特征提取,在不需要额外的相关步骤的情况下可以直接用于预测目标位置,且可以灵活地在丰富的无配对图像上进行预训练,实现了较快的收敛速度和最先进的实时跟踪性能。
Mar, 2022
本文使用 Siamese Transformer 网络,结合点云的形态信息和深度信息,在 3D 单目标跟踪任务中实现了鲁棒的交叉相关学习,取得了与 KITTI、nuScenes 和 Waymo 数据集上最优的表现。
Jul, 2022
本文提出了一个基于 transformer 的视频物体跟踪器,在 Siamese-like 跟踪管道中,编码器在模板中注入了基于注意力机制的特征强化以增强模型生成质量,解码器传递上一个模板的跟踪线索到当前帧以方便目标搜索,结果本方法作为一种最先进的记录在普遍跟踪基准上获得了成功。
Mar, 2021
提出了一种仅基于 Transformer 的连体双支路网络,用于目标跟踪。该方法比第一步使用 CNN 提取特征,然后使用 Transformer 融合它们的最佳方法产生更好或可比的结果,在 GOT-10k 和 VOT2020 基准上优于现有技术。此外,该方法实现了实时推理速度(约 40fps)并且代码和模型将被公布。
Dec, 2021