VidTr: 不使用卷积的视频 Transformer

ICCVApr, 2021

VidTr: Video Transformer Without Convolutions

Yanyi Zhang, Xinyu Li, Chunhui Liu, Bing Shuai, Yi Zhu...

TL;DR通过可分离的注意力机制，利用堆叠的注意力聚合时空信息，高效地实现了视频分类、时空建模以及长期时间推理，并通过优化模型提高了模型效率与性能。

Abstract

We introduce video transformer (VidTr) with separable-attention for video classification. Comparing with commonly used 3D networks, VidTr is able to aggregate spatio-temporal information via stacked attentions an

video transformer separable-attention spatio-temporal modeling topk pooling long-term temporal reasoning

发现论文，激发创造

空时注意力是否足以理解视频？

该论文提出了一种基于自注意力机制的视频分类方法，名为 TimeSformer，适用于序列级别的视频帧，采用分离式自注意力机制，不仅训练速度比 3D 卷积神经网络更快，而且在多个动作识别数据集上实现了最佳效果，且支持处理长达一分钟的视频.

Feb, 2021

视频 Transformer 的时空混合注意力

本研究论文介绍了一种使用 Transformer 进行视频识别的模型，相较于其他视频识别模型，本模型计算效率更高。为实现此目的，本模型对全时空注意力机制进行两种简化处理：(a) 限制时间注意力于局部时间窗口内，(b) 使用高效的时空混合方法联合对空间和时间位置进行注意力处理，而不增加任何额外的成本。

Jun, 2021

ViViT: 一种视频视觉 Transformer

本研究提出一种基于纯 Transformer 模型的视频分类方法，采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记，并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列，我们提出了一些高效的模型变体，可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效，但我们展示了如何有效规范化模型，并利用预训练的图像模型，使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究，并在多个视频分类基准测试中实现了最先进的结果，包括 Kinetics 400 和 600，Epic Kitchens，Something-Something v2 和 Moments in Time，优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究，我们在以下链接中发布了代码。

Mar, 2021

视频变形网络

本文提出了一种基于 Transformer 的视频识别框架 VTN，它相比于传统的 3D ConvNets，通过整个视频序列的注意力机制实现动作分类，并在训练和推断时分别快 16.1 倍和 5.1 倍，同时在 Kinetics-400 数据集上获得了有竞争力的结果，表明了精度和推断速度之间的权衡。

Feb, 2021

Video Swin Transformer

本文介绍了一种针对视频领域的区域局部性 Transformer 架构，通过使用 Swin Transformer 设计来实现，同时利用预训练模型的威力，取得了行动识别和时间建模等广泛的视频识别基准的最新准确性。

Jun, 2021

可变形视频转换器

本研究提出了 Deformable Video Transformer，利用动态预测小型视频数据块，根据运动信息决定模型在哪里观察视频，并优化变形注意机制，以获得更高的精度和更低的计算成本。

Mar, 2022

用于 3D 物体检测的 Voxel Transformer

本文介绍了 Voxel Transformer (VoTr)，这是一种用于 3D 目标检测的新型有效的基于体素的 Transformer 骨干网络。我们通过引入基于 Transformer 的体系结构来解决仅使用体素的 3D 卷积骨干不能有效地捕获大的上下文信息的问题，并且我们提出的 VoTr 在 KITTI 议会和 Waymo 开放数据集上展现了良好的性能。

Sep, 2021

VPTR 视频预测的高效 Transformer

本文提出了一个基于局部时空分离的有效空间 - 时间注意机制的 Transformer 块，用于视频未来帧预测，并构建了一个全自回归视频未来帧预测 Transformer 框架，另外还提出了一个非自回归视频预测 Transformer 框架，并引入对比特征损失来监督模型预测过程。本文是第一个在不同场景下对这两种基于注意力的视频未来帧预测模型进行正式比较的工作，所提出的模型在性能上与更复杂的现有模型竞争力相当。

Mar, 2022

关系自注意力：视频理解中注意力缺少的部分

本文提出了一种基于动态生成关系卷积核和聚合关系背景的关系特征变换 —— 关系自注意力 (RSA)，用于视频理解。通过实验和消融研究，证明 RSA 网络在视频动作识别等领域明显优于传统卷积和自注意力网络。

Nov, 2021

StarVQA+: 视频质量评估的时空注意共训练

本文提出了一种基于自注意力机制的 Space-Time Attention 网络用于解决视频质量评估问题，通过联合训练空间和时间注意力权重来解决 Transformer 中的数据饥饿问题，并在实际测试中证明了其优越性。

Jun, 2023