一段视频胜似三番观：基于三支脉络变换器的视频人物再识别

Apr, 2021

一段视频胜似三番观：基于三支脉络变换器的视频人物再识别

A Video Is Worth Three Views: Trigeminal Transformers for Video-based Person Re-identification

Xuehu Liu, Pingping Zhang, Chenyang Yu, Huchuan Lu, Xuesheng Qian...

TL;DR本文中提出了一种名为 “三叉神经变压器” 的框架，通过将原始视频数据转化为不同的特征域，同时使用自监督学习的三个自视图变压器和一个交叉视图变压器来增强信息并提取更全面的视频标识，实现了公共 Re-ID 基准上优于其他最先进方法的表现。

Abstract

video-based person re-identification (Re-ID) aims to retrieve video sequences of the same person under non-overlapping cameras. Previous methods usually focus on limited views, such as spatial, temporal or spatial-temporal view, which lack of the observations in different feature domai

video-based person re-identification trigeminal transformers feature extractor vision transformer performance

发现论文，激发创造

基于时空变换器的视频行人重新识别

本研究将 Transformer 应用于基于视频的人体再识别，提出一种新的基于预训练的模型，并使用感知约束的时空 Transformer 模块和全局 Transformer 模块转换到下游域，取得了显著的准确率提高。

Mar, 2021

基于时序残差学习的视频行人重识别

本文提出了一种新颖的特征学习框架，用于视频中的人物再辨识，主要利用视频序列中的适当时间信息和解决运动行人的空间对齐问题，并设计了一个时间残差学习（TRL）模块和一个空间 - 时间转换器网络（ST^2N）模块。经过广泛实验验证，提出的方法在各大数据集上都取得了一致优秀的表现，并超越了绝大多数最新的最先进方法。

Feb, 2018

重新审视基于视频的人员再识别的时间建模

该文综合研究和比较了视频人员重识别的四种不同的时间建模方法，包括时间汇聚，时间关注，RNN 和 3D 卷积神经网络，并提出了一个采用时间卷积的注意力生成网络，用于在帧之间提取时间信息。在 MARS 数据集上进行评估，并通过一大部分超越了最新技术的方法。

May, 2018

多目标多相机追踪与重新识别的特征

使用卷积神经网络训练复合式跟踪和重新识别系统，平衡多目标多相机跟踪和个体重新识别性能的关系，并通过自适应加权三元组损失和硬标识挖掘技术来优化性能。

Mar, 2018

基于空间和时间记忆网络的视频人员再识别

本文提出了一种基于 STMN 的新型人员 reID 方法，通过存储频繁出现在视频帧中的空间干扰和优化人员视频的典型时间模式的注意力，实现了对人员视频中的空间和时间干扰的有效处理。

Aug, 2021

学习鲁棒的视觉语义嵌入，实现通用的人员再识别

该论文提出了一种叫做 MMET 的多模态等价 Transformer，可用于更加鲁棒的视觉 - 语义嵌入学习和人物重新识别，同时还引入了一种动态的遮罩机制，叫做 MMM，它可以加强其他模态的特征学习，从而提高性能。

Apr, 2023

基于 3D 卷积网络和非局部注意力的基于视频的人员再识别

本研究旨在解决视频行人重新识别中的空间对齐问题和时间依赖性问题，提出了一种使用 3D 卷积和非局部块进行特征聚合的网络架构，实验结果表明该方法在多个指标上的性能均优于现有技术。

Jul, 2018

全局 - 局部时间表示用于视频行人再识别

本文提出了全局 - 局部时间表征（GLTR）的方法，以利用视频序列中的多尺度时间线索进行视频人物重新识别。这种方法通过对相邻帧中的短时时间线索进行建模，然后捕捉不连续帧之间的长期关系来构建。其中，短期时间线索是通过不同的时间扩张率平行膨胀卷积来表示行人的运动和外貌。利用时间自我注意模型来捕捉长期关系，以减轻视频序列中的遮挡和噪音。最终，通过简单的单流卷积神经网络将短期和长期时间线索聚合形成 GLTR。在四个广泛使用的视频 ReID 数据集上，GLTR 相对于基于身体部分线索或度量学习学习到的现有特征表现出显著的优越性。例如，在 MARS 数据集上，它取得了 87.02％的 Rank-1 精度，而且没有经过一次排序，优于目前的最新技术水平。

Aug, 2019

视频行人再识别的时空互促

本文提出一种基于视频序列的人物再识别方法，通过 Refining Recurrent Unit 和 Spatial-Temporal clues Integration Module 来更好地表达视频序列中的空间和时间信息，并且采用了多层次训练目标来增强算法的性能。实验结果表明，该方法在 iLIDS-VID 和 MARS 数据集上优于现有的最先进方法，并在 PRID-2011 上取得了良好的结果。

Dec, 2018

无监督视频匹配的个体再识别

本文提出了一种基于时间序列的视频人员重识别方法，可以准确地匹配任意不对齐的图像序列中的人，无需标记的成对数据，并通过引入时间移动动态时间扭曲 (TS-DTW) 模型实现自动对齐、数据选择和匹配。

Nov, 2016