视频人员重新识别的多阶段时空聚合变形器

Jan, 2023

视频人员重新识别的多阶段时空聚合变形器

Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person Re-identification

Ziyi Tang, Ruimao Zhang, Zhanglin Peng, Jinrui Chen, Liang Lin

TL;DR本文提出了一种新的 Multi-Stage Spatial-Temporal Aggregation Transformer，采用两个代理嵌入模块来全面感知输入个人的属性和身份信息；通过 SPA 模块进行自注意操作，并采用新设计的自注意力操作提取信息，同时引入了时间分块混洗以进一步提高模型的鲁棒性，在各个标准基准测试中也实现了最先进的准确性。

Abstract

In recent years, the transformer architecture has shown its superiority in the video-based person re-identification task. Inspired by video representation learning, these methods mainly focus on designing modules

transformer architecture person re-identification multi-stage spatial-temporal aggregation transformer proxy embedding modules self-attention operations

发现论文，激发创造

STA: 大规模视频人员再识别的时空注意力

本文中，我们提出了一种新的空间 - 时间注意力（STA）方法，用于解决视频中的大规模人员重新识别任务，该方法通过在时空维度上充分利用那些具有区分性的目标人物部分来生成鲁棒的剪辑级特征表示，使用该方法可以很好地解决基于视频的人员重新识别的挑战性问题，如姿势变化和部分遮挡。

Nov, 2018

基于时空变换器的视频行人重新识别

本研究将 Transformer 应用于基于视频的人体再识别，提出一种新的基于预训练的模型，并使用感知约束的时空 Transformer 模块和全局 Transformer 模块转换到下游域，取得了显著的准确率提高。

Mar, 2021

非受限环境下的多人跟踪和再识别的 Transformer 网络

提出了一个综合的多目标跟踪方法 STMMOT，该方法结合了目标检测和身份链接，能够在长时间内维持目标身份链接，并利用具有注意力机制的鲁棒时空记忆模块和动态查询嵌入来预测目标状态，消除了后处理的需求。

Dec, 2023

基于时序残差学习的视频行人重识别

本文提出了一种新颖的特征学习框架，用于视频中的人物再辨识，主要利用视频序列中的适当时间信息和解决运动行人的空间对齐问题，并设计了一个时间残差学习（TRL）模块和一个空间 - 时间转换器网络（ST^2N）模块。经过广泛实验验证，提出的方法在各大数据集上都取得了一致优秀的表现，并超越了绝大多数最新的最先进方法。

Feb, 2018

视频行人再识别的时空互促

本文提出一种基于视频序列的人物再识别方法，通过 Refining Recurrent Unit 和 Spatial-Temporal clues Integration Module 来更好地表达视频序列中的空间和时间信息，并且采用了多层次训练目标来增强算法的性能。实验结果表明，该方法在 iLIDS-VID 和 MARS 数据集上优于现有的最先进方法，并在 PRID-2011 上取得了良好的结果。

Dec, 2018

基于时空注意力的实时视频识别语义压缩

本文研究边缘计算中视频动作识别的计算卸载。为了实现有效的语义信息提取，本文提出了一种新的空时注意力自编码器（STAE）结构，包括帧注意力模块和空间注意力模块。实验证明，在时间约束下，与 DeepISC 的基准模型相比，基于 STAE 的 ViT 模型具有更快的推理速度和更高的准确性。

May, 2023

基于运动捕捉的动作识别的时空网格变换器（STMT）

本文提出一种利用 Spatial-Temporal Mesh Transformer（STMT）直接对网格序列进行建模的方法，通过使用层次 Transformer 结构和自监督任务来实现骨架表示和点云表示无法达到的以空间 - 时间域的非局部关系为基础的人类动作识别，实验结果表明该方法在 MoCap 基准测试上表现卓越。

Mar, 2023

PTSEFormer: 渐进式时空增强 Transformer 用于视频目标检测

本论文提出了一种基于 PTSEFormer 的对象检测方法，该方法引入了上下文框架、时间信息、空间信息来提高模型性能，其通过注意力机制与视觉特征的集成实现时间信息的引入，同时通过 Spatial Transition Awareness Model 实现了上下文特征之间的空间信息的集成，最终在 ImageNet VID 数据集上取得了 88.1% mAP 的表现。

Sep, 2022

交通预测中的时空变换器的再思考：多层多视角增强学习框架

本文提出了一种多层多视图增强时空 Transformer（LVSTformer）用于交通预测，该模型旨在从局部地理、全局语义和关键节点三个不同层次捕获空间依赖性，同时还具备长期和短期的时间依赖性，通过结合三种空间增强视图与三个并行空间自注意机制，模型可以全面捕获不同层次的空间依赖性，并且采用门控时间自注意机制有效捕捉长期和短期的时间依赖性。此外，在两个时空层之间引入了时空上下文广播模块，以确保注意力分配的均匀分布，缓解过拟合和信息损失，增强模型的泛化能力和鲁棒性。通过在六个知名交通基准上进行全面的实验，实验结果表明 LVSTformer 相比竞争基线模型实现了最先进的性能，最大改进幅度达到了 4.32%。

Jun, 2024

自适应跟踪的自回归查询与时空 Transformer

提出了一个自适应的带有时空转换器的跟踪器（命名为 AQATrack），通过采用简单的自回归查询来有效地学习时空信息，从而改善了目标跟踪中手动设计组件过多的问题，并设计了新颖的注意力机制来生成当前帧的新查询，最终使用空间 - 时间信息融合模块（STM）定位目标对象，实验结果表明，该方法在六个流行的跟踪基准上显著提高了跟踪器的性能：LaSOT、LaSOText、TrackingNet、GOT-10k、TNL2K 和 UAV123。

Mar, 2024