通过空间和时间变换器进行端到端多目标跟踪，超越两帧限制

Mar, 2021

通过空间和时间变换器进行端到端多目标跟踪，超越两帧限制

Looking Beyond Two Frames: End-to-End Multi-Object Tracking Using Spatial and Temporal Transformers

Tianyu Zhu, Markus Hiller, Mahsa Ehsanpour, Rongkai Ma, Tom Drummond...

TL;DR使用Transformer和时空嵌入的MO3TR方法，具有空间和时间注意机制，无需显式的数据聚类模块或任何启发式方法，成功解决了多物体追踪过程中的诸多挑战，表现方面同多个popular MOT图像和视频基准测试的现有最先进技术几乎相当或更好。

Abstract

Tracking a time-varying indefinite number of objects in a video sequence over time remains a challenge despite recent advances in the field. Ignoring long-term temporal information, most existing approaches are not able to properly handle multi-object tracking challenges such as

发现论文，激发创造

追踪不可追踪的物体：学习如何跟踪多个线索及其长期依赖性

本文研究的是多目标跟踪中数据关联错误的问题，提出了一种基于RNN的多信号联合跟踪方法，能够编码多信号的长期时间依赖性，有效地解决了遮挡和外观相似等问题，取得了比之前公开数据集更好的跟踪效果。

Jan, 2017

基于卷积神经网络单目标跟踪器与时空注意力机制的在线多目标跟踪

本文提出了一种基于 CNN 的框架，用于在线多目标跟踪，并引入了空间-时间注意机制处理 Occlusion 问题，从而实现在 MOT15 和 MOT16 基准数据集上 34.3% 到 46.0% 的多目标跟踪性能。

Aug, 2017

MOTS: 多目标跟踪和分割

本论文将多目标跟踪扩展到多目标跟踪和分割（MOTS）。为此，我们使用半自动注释程序为两个现有的跟踪数据集创建密集的像素级注释。通过我们的新注释，我们提出了一个新的基线方法，该方法使用单个卷积网络共同处理检测、跟踪和分割。我们演示了我们数据集的价值，在 MOTS 注释上训练可以提高性能，我们相信我们的数据集、指标和基线方法将成为开发超越 2D 边界框的多目标跟踪方法的宝贵资源。

Feb, 2019

TrackFormer：基于Transformer的多目标跟踪

TrackFormer是基于编码器-解码器变压器架构的端到端可训练的多目标追踪方法，利用注意力实现帧到帧的数据关联，以查询的形式自回归地跟踪现有轨迹并初始化新轨迹，能够实现目前最先进的多目标跟踪的性能。

Jan, 2021

Transformer Meets Tracker: 挖掘时间上下文，提高鲁棒性视觉跟踪

本文提出了一个基于transformer的视频物体跟踪器，在Siamese-like跟踪管道中，编码器在模板中注入了基于注意力机制的特征强化以增强模型生成质量，解码器传递上一个模板的跟踪线索到当前帧以方便目标搜索，结果本方法作为一种最先进的记录在普遍跟踪基准上获得了成功。

Mar, 2021

MOTR: 使用Transformer进行端到端的多目标追踪

本文介绍了一种名为MOTR的方法，它使用track query来建模整个视频中的跟踪实例，并引入了一种新的时域关系建模方法。实验结果表明，MOTR在HOTA指标上比现有技术ByteTrack提高了6.5%，在MOT17测试中，MOTR的关联性能也胜过了TrackFormer和TransTrack。

May, 2021

站在过去和未来之间：多摄像头3D多物体跟踪的时空建模

本文介绍了一种名为PF-Track的多相机3D多目标跟踪框架，它重点强调时空连续性，过去和未来的推理，采用“注意跟踪”框架，并使用对象查询一致地表示跟踪实例，以明确使用历史线索，显式地引用前面帧和其他对象的查询，从而学习优化轨迹并增强物体特征。

Feb, 2023

MeMOTR: 长期记忆增强转换器用于多目标跟踪

我们提出了MeMOTR，一种用于多目标跟踪的长期记忆增强Transformer模型，通过使用自定义的记忆-注意力层注入长期记忆，使得相同目标的轨迹嵌入更加稳定和可分辨，显著提高了模型的目标关联能力。实验结果显示，MeMOTR在HOTA和AssA指标上分别超过了现有方法的7.9％和13.0％，并且在MOT17上的关联性能也优于其他基于Transformer的方法，同时在BDD100K上也具有很好的泛化性能。

Jul, 2023

ReST: 可重构的时空图模型用于多摄像头多目标跟踪

提出了一种新颖的可重配置图模型，通过首先在空间上关联所有检测到的对象，然后将其重新配置为时间图来进行时间关联，从而能够提取出稳健的空间和时间感知特征，并解决跟踪过程中出现的分段轨迹问题。该模型适用于在线跟踪，并在多个公共数据集上取得了最先进的性能。

Aug, 2023

非受限环境下的多人跟踪和再识别的Transformer网络

提出了一个综合的多目标跟踪方法STMMOT，该方法结合了目标检测和身份链接，能够在长时间内维持目标身份链接，并利用具有注意力机制的鲁棒时空记忆模块和动态查询嵌入来预测目标状态，消除了后处理的需求。

Dec, 2023