学习时空变换器进行视觉跟踪

Mar, 2021

Learning Spatio-Temporal Transformer for Visual Tracking

Bin Yan, Houwen Peng, Jianlong Fu, Dong Wang, Huchuan Lu

TL;DR本文提出一种新的追踪架构，它以编码 - 解码变压器作为核心组件，将目标追踪转化为直接边界框预测问题，从而实现了端到端模型，无需使用任何先前设定的锚点或提案等后处理步骤。

Abstract

In this paper, we present a new tracking architecture with an encoder-decoder transformer as the key component. The encoder models the global spatio-temporal feature dependencies between target objects and search regions, while the decoder learns a query embedding to predict the spatia

tracking architecture encoder-decoder transformer object tracking predictive modeling real-time speed

发现论文，激发创造

Transformer Meets Tracker: 挖掘时间上下文，提高鲁棒性视觉跟踪

本文提出了一个基于 transformer 的视频物体跟踪器，在 Siamese-like 跟踪管道中，编码器在模板中注入了基于注意力机制的特征强化以增强模型生成质量，解码器传递上一个模板的跟踪线索到当前帧以方便目标搜索，结果本方法作为一种最先进的记录在普遍跟踪基准上获得了成功。

Mar, 2021

使用 Transformer 的视觉跟踪

本文介绍了一种基于 Transformer 编码器 - 解码器架构和强有力的注意机制的新型追踪器网络，通过自我关注模块和交叉注意力，提高了全局和丰富的背景信息获取，支持超越局部特征的追踪效果，在多个基准测试上表现出优异的性能。

May, 2021

自动驾驶中基于 3D 激光雷达的视频物体检测的时空通道变换器

本文提出了一种名为 Temporal-Channel Transformer 的新型转换器，用于从 Lidar 数据中模拟时空域和通道域关系以进行视频物体检测，并以网格体素为基础在 nuScenes 基准测试中取得最先进的性能。

Nov, 2020

SeqTrack：用于视觉目标追踪的序列到序列学习

本论文提出了一个新的序列到序列学习框架 SeqTrack 来进行视觉跟踪，将视觉跟踪作为一个序列生成问题，该问题可以在自回归的基础上预测物体的边界框，SeqTrack 架构只采用一个简单的编码器解码器变压器架构，并在多个基准测试上达到了竞争性能水平。

Apr, 2023

利用密集时空位置编码追踪目标

提出一种新的范式，使用 transformers 对视频中的目标位置进行编码，该模型 DST (position encoding) 以密集的像素方式编码了空间时间位置信息，并将其与变压器结合以进行多目标跟踪。

Oct, 2022

用于三维人体运动预测的时空转换器

本文提出一种新颖的基于 Transformer 的架构，用于生成 3D 人体运动的模型。该模型能够学习高维度骨骼关节的嵌入，通过解耦的时间和空间自注意机制使得生成的姿态在时间上是连贯的。实验结果表明该模型能够准确地生成短期预测并在长期时间跨度内生成合理的运动序列。

Apr, 2020

全球跟踪变压器

本论文提出了一种新型基于 Transformer 的架构，用于全局多目标跟踪，通过对各帧图像上的物体特征进行编码，通过路径查询将其分组成轨迹，与目标检测器联合训练，可以实现对任意对象的跟踪，并在 MOT17 基准测试中实现了 75.3 的 MOTA 和 59.1 的 HOTA，超越了基于成对联想的基线，并在 TAO 数据集上得到显著的 7.7 跟踪 mAP 的提高。

Mar, 2022

面向视觉物体跟踪的空间监督循环卷积神经网络

本文提出了一种新的空间监督递归卷积神经网络，用于视觉对象跟踪，通过研究长短期记忆和区域信息的回归能力，结合卷积网络产生的高层视觉特征直接预测跟踪位置，相较于现有的深度学习跟踪器，我们的跟踪器在保持低计算成本的同时更加准确和鲁棒，实验结果表明在多个数据集上均表现优异，常常优于排名第二的跟踪器。

Jul, 2016

基于时空变换器的视频行人重新识别

本研究将 Transformer 应用于基于视频的人体再识别，提出一种新的基于预训练的模型，并使用感知约束的时空 Transformer 模块和全局 Transformer 模块转换到下游域，取得了显著的准确率提高。

Mar, 2021

转换模型预测以用于跟踪

本文提出了一种优化基于追踪算法，采用 Transformer 模型实现的目标模型预测模块，并进一步扩展模型预测器以估计第二组权重以实现精确的边界框回归，该跟踪器在多个跟踪数据集上进行了广泛的实验，并在三个基准测试中取得了 68.5% 的 AUC 值。

Mar, 2022