使用视频和图像联合训练 Transformer 提高动作识别

Dec, 2021

使用视频和图像联合训练 Transformer 提高动作识别

Co-training Transformer with Videos and Images Improves Action Recognition

Bowen Zhang, Jiahui Yu, Christopher Fifty, Wei Han, Andrew M. Dai...

TL;DR本文探索视频 transformer 的几个训练范式，并提出了一种称为 CoVeR 的方法，通过与图像的共同训练，提高了视频 transformer 的性能，尤其是在动作识别上，取得了最好的结果。

Abstract

In learning action recognition, models are typically pre-trained on object recognition with images, such as ImageNet, and later fine-tuned on target action recognition with videos. This approach has achieved good

action recognition video transformers training paradigms cover pre-training

发现论文，激发创造

图像分类器能否满足动作识别的需求？

将视频识别问题作为图像识别任务，使用超级图像重新排列输入的视频帧，通过仅使用基于 Transformer 的图像分类器，直接完成动作识别任务，此方法在多个公共数据集上表现强劲，包括 Kinetics400，Moments In Time，Something-Something V2 (SSV2)，Jester 和 Diving48。

Jun, 2021

单一视觉变换器的图像和视频联合学习

我们提出了一种使用单一模型联合学习图像和视频的方法，该方法采用了批量图像输入和通过深度融合来进行时间聚合的视频帧集合。通过实验结果展示了在两个图像数据集和两个动作识别数据集上的效果。

Aug, 2023

面向 EPIC-KITCHENS-100 动作识别的视频视觉 Transformer 训练

本文介绍了一种训练更强大的视频视觉变换器的经验结果，使用了诸如增强、分辨率和初始化等技术，并在 EPIC-KITCHENS-100 数据集上进行了探索，单个 ViViT 模型在验证集上取得了 47.4% 的性能，超过原始文献报告的 3.4%。

Jun, 2021

ActNetFormer：半监督视频动作识别的 Transformer-ResNet 混合方法

提出了一种使用跨体系伪标签与对比度学习的半监督行为识别方法，其中结合 3D 卷积神经网络（3D CNN）和视频变换器（VIT）的独特方法能够有效捕捉行为的局部和全局上下文信息，从而在标记数据的一小部分情况下实现了卓越的性能。

Apr, 2024

Video Swin Transformer

本文介绍了一种针对视频领域的区域局部性 Transformer 架构，通过使用 Swin Transformer 设计来实现，同时利用预训练模型的威力，取得了行动识别和时间建模等广泛的视频识别基准的最新准确性。

Jun, 2021

视频动作转换网络

本文介绍了行动转换器模型用于识别和定位视频剪辑中的人类动作，使用 Transformer 风格的架构聚合人物周围的时空背景特征，通过高分辨率、个性化、类别不可知的查询，该模型自动学习跟踪个人并从他人的动作中获取语义上下文

Dec, 2018

ViViT: 一种视频视觉 Transformer

本研究提出一种基于纯 Transformer 模型的视频分类方法，采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记，并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列，我们提出了一些高效的模型变体，可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效，但我们展示了如何有效规范化模型，并利用预训练的图像模型，使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究，并在多个视频分类基准测试中实现了最先进的结果，包括 Kinetics 400 和 600，Epic Kitchens，Something-Something v2 和 Moments in Time，优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究，我们在以下链接中发布了代码。

Mar, 2021

视频变形网络

本文提出了一种基于 Transformer 的视频识别框架 VTN，它相比于传统的 3D ConvNets，通过整个视频序列的注意力机制实现动作分类，并在训练和推断时分别快 16.1 倍和 5.1 倍，同时在 Kinetics-400 数据集上获得了有竞争力的结果，表明了精度和推断速度之间的权衡。

Feb, 2021

网络图像的注意力转移用于视频识别

通过利用弱监督网络图像，提出了一种能够将图像转移到视频领域的深度学习分类器，使用 Siamese EnergyNet 网络结构来优化空间注意力图的能量函数，解决了基于网络图像训练的分类器到视频上显著下降的问题。

Aug, 2017

视觉 Transformer 在动作识别中的应用：一份调研报告

本文针对视觉 transformer 在人体动作识别领域的研究进展进行了综述，主要就其架构、模态、目标、编码、降维、自监督学习、评估指标等方面展开阐述，并探讨了其存在的挑战和未来发展方向。

Sep, 2022