视频变形网络

Feb, 2021

Video Transformer Network

Daniel Neimark, Omri Bar, Maya Zohar, Dotan Asselmann

TL;DR本文提出了一种基于 Transformer 的视频识别框架 VTN，它相比于传统的 3D ConvNets，通过整个视频序列的注意力机制实现动作分类，并在训练和推断时分别快 16.1 倍和 5.1 倍，同时在 Kinetics-400 数据集上获得了有竞争力的结果，表明了精度和推断速度之间的权衡。

Abstract

This paper presents vtn, a transformer-based framework for video recognition. Inspired by recent developments in vision transformers, we d

vtn transformer-based framework video recognition 3d convnets inference speed

发现论文，激发创造

EventTransAct：基于视频变换器的基于事件摄像机的动作识别框架

本研究旨在通过使用事件相机进行行为识别，提出了一种基于视频变换网络和事件对比损失的计算高效模型。该模型在真实世界中的行为识别任务中表现出卓越性能，并且相较于其他方法具有更低的计算时间，适用于基于事件相机的行为识别应用。

Aug, 2023

ViViT: 一种视频视觉 Transformer

本研究提出一种基于纯 Transformer 模型的视频分类方法，采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记，并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列，我们提出了一些高效的模型变体，可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效，但我们展示了如何有效规范化模型，并利用预训练的图像模型，使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究，并在多个视频分类基准测试中实现了最先进的结果，包括 Kinetics 400 和 600，Epic Kitchens，Something-Something v2 和 Moments in Time，优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究，我们在以下链接中发布了代码。

Mar, 2021

Video Swin Transformer

本文介绍了一种针对视频领域的区域局部性 Transformer 架构，通过使用 Swin Transformer 设计来实现，同时利用预训练模型的威力，取得了行动识别和时间建模等广泛的视频识别基准的最新准确性。

Jun, 2021

视频动作转换网络

本文介绍了行动转换器模型用于识别和定位视频剪辑中的人类动作，使用 Transformer 风格的架构聚合人物周围的时空背景特征，通过高分辨率、个性化、类别不可知的查询，该模型自动学习跟踪个人并从他人的动作中获取语义上下文

Dec, 2018

ActNetFormer：半监督视频动作识别的 Transformer-ResNet 混合方法

提出了一种使用跨体系伪标签与对比度学习的半监督行为识别方法，其中结合 3D 卷积神经网络（3D CNN）和视频变换器（VIT）的独特方法能够有效捕捉行为的局部和全局上下文信息，从而在标记数据的一小部分情况下实现了卓越的性能。

Apr, 2024

VidTr: 不使用卷积的视频 Transformer

通过可分离的注意力机制，利用堆叠的注意力聚合时空信息，高效地实现了视频分类、时空建模以及长期时间推理，并通过优化模型提高了模型效率与性能。

Apr, 2021

单一视觉变换器的图像和视频联合学习

我们提出了一种使用单一模型联合学习图像和视频的方法，该方法采用了批量图像输入和通过深度融合来进行时间聚合的视频帧集合。通过实验结果展示了在两个图像数据集和两个动作识别数据集上的效果。

Aug, 2023

使用视频和图像联合训练 Transformer 提高动作识别

本文探索视频 transformer 的几个训练范式，并提出了一种称为 CoVeR 的方法，通过与图像的共同训练，提高了视频 transformer 的性能，尤其是在动作识别上，取得了最好的结果。

Dec, 2021

使用 Transformer 的视频帧插值

使用 Transformer 和跨尺度窗口关注机制的视频帧插值方法，在多个基准测试上达到了新的最先进结果。

May, 2022

视频实例分割的时间高效视觉 Transformer

提出了一种名为 TeViT 的视觉 Transformer，它在视频实例分割任务中高效地对关键的时间信息进行建模，并在三个广泛采用的视觉实例分割基准测试中取得了最新的结果。

Apr, 2022