基于时空变换器的视频行人重新识别

Mar, 2021

基于时空变换器的视频行人重新识别

Spatiotemporal Transformer for Video-based Person Re-identification

Tianyu Zhang, Longhui Wei, Lingxi Xie, Zijie Zhuang, Yongfei Zhang...

TL;DR本研究将 Transformer 应用于基于视频的人体再识别，提出一种新的基于预训练的模型，并使用感知约束的时空 Transformer 模块和全局 Transformer 模块转换到下游域，取得了显著的准确率提高。

Abstract

Recently, the transformer module has been transplanted from natural language processing to computer vision. This paper applies the transformer to

transformer person re-identification video-based pre-training spatiotemporal transformer

发现论文，激发创造

基于时序残差学习的视频行人重识别

本文提出了一种新颖的特征学习框架，用于视频中的人物再辨识，主要利用视频序列中的适当时间信息和解决运动行人的空间对齐问题，并设计了一个时间残差学习（TRL）模块和一个空间 - 时间转换器网络（ST^2N）模块。经过广泛实验验证，提出的方法在各大数据集上都取得了一致优秀的表现，并超越了绝大多数最新的最先进方法。

Feb, 2018

一段视频胜似三番观：基于三支脉络变换器的视频人物再识别

本文中提出了一种名为 “三叉神经变压器” 的框架，通过将原始视频数据转化为不同的特征域，同时使用自监督学习的三个自视图变压器和一个交叉视图变压器来增强信息并提取更全面的视频标识，实现了公共 Re-ID 基准上优于其他最先进方法的表现。

Apr, 2021

视频人员重新识别的多阶段时空聚合变形器

本文提出了一种新的 Multi-Stage Spatial-Temporal Aggregation Transformer，采用两个代理嵌入模块来全面感知输入个人的属性和身份信息；通过 SPA 模块进行自注意操作，并采用新设计的自注意力操作提取信息，同时引入了时间分块混洗以进一步提高模型的鲁棒性，在各个标准基准测试中也实现了最先进的准确性。

Jan, 2023

非受限环境下的多人跟踪和再识别的 Transformer 网络

提出了一个综合的多目标跟踪方法 STMMOT，该方法结合了目标检测和身份链接，能够在长时间内维持目标身份链接，并利用具有注意力机制的鲁棒时空记忆模块和动态查询嵌入来预测目标状态，消除了后处理的需求。

Dec, 2023

基于视觉转换器的人类中心时空视频定位

本文介绍了一项新任务 —— 人体中心的时空视频定位（HC-STVG），并提出了一种名为 Spatio-Temporal Grounding with Visual Transformers（STGVT）的基准方法，该方法使用 Visual Transformers 来提取视频 - 句子匹配和时间定位的跨模态表示，同时我们贡献了一个 HC-STVG 数据集，其中包含 5,660 个复杂的多人场景视频 - 句子对。经过大量实验，表明新提出的方法优于现有的基准方法。

Nov, 2020

视频行人再识别的时空互促

本文提出一种基于视频序列的人物再识别方法，通过 Refining Recurrent Unit 和 Spatial-Temporal clues Integration Module 来更好地表达视频序列中的空间和时间信息，并且采用了多层次训练目标来增强算法的性能。实验结果表明，该方法在 iLIDS-VID 和 MARS 数据集上优于现有的最先进方法，并在 PRID-2011 上取得了良好的结果。

Dec, 2018

重新审视基于视频的人员再识别的时间建模

该文综合研究和比较了视频人员重识别的四种不同的时间建模方法，包括时间汇聚，时间关注，RNN 和 3D 卷积神经网络，并提出了一个采用时间卷积的注意力生成网络，用于在帧之间提取时间信息。在 MARS 数据集上进行评估，并通过一大部分超越了最新技术的方法。

May, 2018

动态场景图生成的时空变换器

本文提出了一种基于空间 - 时间变换器 (STTran) 的神经网络，用于生成给定视频的动态场景图。STTran 包括一个空间编码器和一个时间解码器，能够有效地捕捉对象之间的视觉关系和帧之间的时间依赖。与已有方法相比，我们的方法在 Action Genome 数据集上表现出了更好的性能。

Jul, 2021

全局 - 局部时间表示用于视频行人再识别

本文提出了全局 - 局部时间表征（GLTR）的方法，以利用视频序列中的多尺度时间线索进行视频人物重新识别。这种方法通过对相邻帧中的短时时间线索进行建模，然后捕捉不连续帧之间的长期关系来构建。其中，短期时间线索是通过不同的时间扩张率平行膨胀卷积来表示行人的运动和外貌。利用时间自我注意模型来捕捉长期关系，以减轻视频序列中的遮挡和噪音。最终，通过简单的单流卷积神经网络将短期和长期时间线索聚合形成 GLTR。在四个广泛使用的视频 ReID 数据集上，GLTR 相对于基于身体部分线索或度量学习学习到的现有特征表现出显著的优越性。例如，在 MARS 数据集上，它取得了 87.02％的 Rank-1 精度，而且没有经过一次排序，优于目前的最新技术水平。

Aug, 2019

STA: 大规模视频人员再识别的时空注意力

本文中，我们提出了一种新的空间 - 时间注意力（STA）方法，用于解决视频中的大规模人员重新识别任务，该方法通过在时空维度上充分利用那些具有区分性的目标人物部分来生成鲁棒的剪辑级特征表示，使用该方法可以很好地解决基于视频的人员重新识别的挑战性问题，如姿势变化和部分遮挡。

Nov, 2018