基于时空变换器的视频行人重新识别
本文提出了一种新颖的特征学习框架,用于视频中的人物再辨识,主要利用视频序列中的适当时间信息和解决运动行人的空间对齐问题,并设计了一个时间残差学习(TRL)模块和一个空间 - 时间转换器网络(ST^2N)模块。经过广泛实验验证,提出的方法在各大数据集上都取得了一致优秀的表现,并超越了绝大多数最新的最先进方法。
Feb, 2018
本文中提出了一种名为 “三叉神经变压器” 的框架,通过将原始视频数据转化为不同的特征域,同时使用自监督学习的三个自视图变压器和一个交叉视图变压器来增强信息并提取更全面的视频标识,实现了公共 Re-ID 基准上优于其他最先进方法的表现。
Apr, 2021
本文提出了一种新的 Multi-Stage Spatial-Temporal Aggregation Transformer,采用两个代理嵌入模块来全面感知输入个人的属性和身份信息;通过 SPA 模块进行自注意操作,并采用新设计的自注意力操作提取信息,同时引入了时间分块混洗以进一步提高模型的鲁棒性,在各个标准基准测试中也实现了最先进的准确性。
Jan, 2023
提出了一个综合的多目标跟踪方法 STMMOT,该方法结合了目标检测和身份链接,能够在长时间内维持目标身份链接,并利用具有注意力机制的鲁棒时空记忆模块和动态查询嵌入来预测目标状态,消除了后处理的需求。
Dec, 2023
本文介绍了一项新任务 —— 人体中心的时空视频定位(HC-STVG),并提出了一种名为 Spatio-Temporal Grounding with Visual Transformers(STGVT)的基准方法,该方法使用 Visual Transformers 来提取视频 - 句子匹配和时间定位的跨模态表示,同时我们贡献了一个 HC-STVG 数据集,其中包含 5,660 个复杂的多人场景视频 - 句子对。经过大量实验,表明新提出的方法优于现有的基准方法。
Nov, 2020
本文提出一种基于视频序列的人物再识别方法,通过 Refining Recurrent Unit 和 Spatial-Temporal clues Integration Module 来更好地表达视频序列中的空间和时间信息,并且采用了多层次训练目标来增强算法的性能。实验结果表明,该方法在 iLIDS-VID 和 MARS 数据集上优于现有的最先进方法,并在 PRID-2011 上取得了良好的结果。
Dec, 2018
该文综合研究和比较了视频人员重识别的四种不同的时间建模方法,包括时间汇聚,时间关注,RNN 和 3D 卷积神经网络,并提出了一个采用时间卷积的注意力生成网络,用于在帧之间提取时间信息。在 MARS 数据集上进行评估,并通过一大部分超越了最新技术的方法。
May, 2018
本文提出了一种基于空间 - 时间变换器 (STTran) 的神经网络,用于生成给定视频的动态场景图。STTran 包括一个空间编码器和一个时间解码器,能够有效地捕捉对象之间的视觉关系和帧之间的时间依赖。与已有方法相比,我们的方法在 Action Genome 数据集上表现出了更好的性能。
Jul, 2021
本文提出了全局 - 局部时间表征(GLTR)的方法,以利用视频序列中的多尺度时间线索进行视频人物重新识别。这种方法通过对相邻帧中的短时时间线索进行建模,然后捕捉不连续帧之间的长期关系来构建。其中,短期时间线索是通过不同的时间扩张率平行膨胀卷积来表示行人的运动和外貌。利用时间自我注意模型来捕捉长期关系,以减轻视频序列中的遮挡和噪音。最终,通过简单的单流卷积神经网络将短期和长期时间线索聚合形成 GLTR。在四个广泛使用的视频 ReID 数据集上,GLTR 相对于基于身体部分线索或度量学习学习到的现有特征表现出显著的优越性。例如,在 MARS 数据集上,它取得了 87.02%的 Rank-1 精度,而且没有经过一次排序,优于目前的最新技术水平。
Aug, 2019
本文中,我们提出了一种新的空间 - 时间注意力(STA)方法,用于解决视频中的大规模人员重新识别任务,该方法通过在时空维度上充分利用那些具有区分性的目标人物部分来生成鲁棒的剪辑级特征表示,使用该方法可以很好地解决基于视频的人员重新识别的挑战性问题,如姿势变化和部分遮挡。
Nov, 2018