统一 Transformer 物体跟踪器

CVPRMar, 2022

Unified Transformer Tracker for Object Tracking

Fan Ma, Mike Zheng Shou, Linchao Zhu, Haoqi Fan, Yilei Xu...

TL;DR该论文介绍了一种名为 Unified Transformer Tracker (UTT) 的模型，通过该模型，研究者们可以在同一框架下解决不同场景下的目标跟踪问题。该模型可以同时进行单目标跟踪（Single Object Tracking）和多目标跟踪（Multiple Object Tracking），并通过端到端训练来优化模型的表现。

Abstract

As an important area in computer vision, object tracking has formed two separate communities that respectively study Single object tracking (SOT) and Multiple →

object tracking single object tracking multiple object tracking unified transformer tracker end-to-end trained

发现论文，激发创造

物体追踪的大一统

提出了一种统一方法 Unicorn，可以通过单个网络和相同的模型参数同时解决四个跟踪问题 (SOT、MOT、VOS 和 MOTS)，该方法采用相同的输入、主干、嵌入和头部，解决了现有跟踪器过度专业化特定任务的问题，并在包括 LaSOT、TrackingNet、MOT17、BDD100K、DAVIS16-17、MOTS20 和 BDD100K MOTS 在内的 8 个跟踪数据集上实现了与其特定任务的对应产品相当或更好的表现。

Jul, 2022

TransTrack：基于 Transformer 的多目标跟踪

本文提出了 TransTrack，该方法利用 Transformer 架构解决多目标跟踪问题，采用对象特征作为当前帧的查询并引入一组学习对象查询以检测新对象，通过实现单次检测和跟踪建立了新的联合检测和跟踪范例，在 MOT17 和 MOT20 基准测试中达到了 74.5％和 64.5％的 MOTA，是一种优秀的多目标跟踪方法。

Dec, 2020

非受限环境下的多人跟踪和再识别的 Transformer 网络

提出了一个综合的多目标跟踪方法 STMMOT，该方法结合了目标检测和身份链接，能够在长时间内维持目标身份链接，并利用具有注意力机制的鲁棒时空记忆模块和动态查询嵌入来预测目标状态，消除了后处理的需求。

Dec, 2023

MotionTrack: 基于 Transformer 的端到端多目标追踪与 LiDAR - 摄像头融合

提出了一种基于 Transformer 的多模态传感器输入的端到端多目标跟踪算法（MotionTrack），它由基于 Transformer 的数据关联（DA）模块和基于 Transformer 的查询增强模块组成，同时实现了多目标检测（MOD）。MotionTrack 及其变体在 nuScenes 数据集上获得更好的结果（AMOTA 得分为 0.55），与 AB3DMOT、CenterTrack 和概率 3D 卡尔曼滤波器等经典基线模型相比有着更好的表现。

Jun, 2023

TrackFormer：基于 Transformer 的多目标跟踪

TrackFormer 是基于编码器 - 解码器变压器架构的端到端可训练的多目标追踪方法，利用注意力实现帧到帧的数据关联，以查询的形式自回归地跟踪现有轨迹并初始化新轨迹，能够实现目前最先进的多目标跟踪的性能。

Jan, 2021

基于实例感知跟踪器和动态模型更新的在线多目标跟踪

提出一种实例感知跟踪器，结合单个物体跟踪和卷积神经网络技术，用于多物体跟踪，提高跟踪准确性。在 MOT15 和 MOT16 基准测试上表现最佳。

Feb, 2019

ReIDTrack：无运动的多对象追踪与分割

基于 CBNetV2 和 Swin-B 的检测模型以及 MoCo-v2 的自监督外观模型，我们探索了一种新的 SOTA 方向，通过去除运动信息和 IoU 映射，取得了在 CVPR2023 WAD 研讨会的 MOTS 轨迹上的第一名以及 MOT 轨迹上的第二名的简单有效方法。

Aug, 2023

MOTR: 使用 Transformer 进行端到端的多目标追踪

本文介绍了一种名为 MOTR 的方法，它使用 track query 来建模整个视频中的跟踪实例，并引入了一种新的时域关系建模方法。实验结果表明，MOTR 在 HOTA 指标上比现有技术 ByteTrack 提高了 6.5%，在 MOT17 测试中，MOTR 的关联性能也胜过了 TrackFormer 和 TransTrack。

May, 2021

通过动画跟踪：多物体注视跟踪的无监督学习

提出了一种称为 “Tracking-by-Animation” 的跟踪框架，通过利用可微分的神经模型对多个对象进行跟踪，并在重构帧中动画化这些对象，从而实现了无需标记数据的端到端 MOT 学习。同时进一步提出了优化数据关联的 “Reprioritized Attentive Tracking” 模型。

Sep, 2018

3DMOTFormer：在线三维多目标跟踪的图形转换器

基于 Transformer 架构构建的学习几何 3D MOT 框架 3DMOTFormer，在进行跟踪检测双向图的基础上，通过边分类进行数据关联，并提出了一种新颖的在线训练策略，通过自回归和递归前向传播以及序列化批量优化来减少训练和推断之间的分布不匹配。

Aug, 2023