视频 Transformer 的时空混合注意力

Jun, 2021

Space-time Mixing Attention for Video Transformer

Adrian Bulat, Juan-Manuel Perez-Rua, Swathikiran Sudhakaran, Brais Martinez, Georgios Tzimiropoulos

TL;DR本研究论文介绍了一种使用 Transformer 进行视频识别的模型，相较于其他视频识别模型，本模型计算效率更高。为实现此目的，本模型对全时空注意力机制进行两种简化处理：(a) 限制时间注意力于局部时间窗口内，(b) 使用高效的时空混合方法联合对空间和时间位置进行注意力处理，而不增加任何额外的成本。

Abstract

This paper is on video recognition using transformers. Very recent attempts in this area have demonstrated promising results in terms of recognition accuracy, yet they have been also shown to induce, in many case

video recognition transformers temporal information video transformer model computational efficiency

发现论文，激发创造

空时注意力是否足以理解视频？

该论文提出了一种基于自注意力机制的视频分类方法，名为 TimeSformer，适用于序列级别的视频帧，采用分离式自注意力机制，不仅训练速度比 3D 卷积神经网络更快，而且在多个动作识别数据集上实现了最佳效果，且支持处理长达一分钟的视频.

Feb, 2021

视频帧插值变换器

本论文提出了一种基于 Transformer 模型的视频插帧方法，利用自注意力机制实现了内容关注的多尺度帧间聚合，并引入本地注意力机制以及时间与空间的分离策略以优化性能。实验证明该方法在多个基准数据集上得到了优于现有方法的表现。

Nov, 2021

视频 Transformer 中的轨迹注意力

我们提出了一种新的视频转换器的降压块 - 轨迹关注，并提出了一种解决计算和存储在输入大小上的二次依赖性的新方法，其中特别重要的是对于高分辨率或长视频。将这些想法应用于视频行动识别的具体任务中，并在 Kinetics，Something-Something V2 和 Epic-Kitchens 数据集上取得了最先进的结果。

Jun, 2021

DualFormer：面向高效视频识别的分层局部全局 Transformer

本文提出了一种新型的 Transformer 架构 DualFormer 用于视频识别，此架构可以有效地处理空间 - 时间关注，能够捕捉短距离和长距离的时空依赖关系，并通过本地 - 全局层次划分策略显著减少注意力计算中的关键值个数，从而提高效率并在五个视频基准测试上验证了 DualFormer 的优越性能。

Dec, 2021

StarVQA+: 视频质量评估的时空注意共训练

本文提出了一种基于自注意力机制的 Space-Time Attention 网络用于解决视频质量评估问题，通过联合训练空间和时间注意力权重来解决 Transformer 中的数据饥饿问题，并在实际测试中证明了其优越性。

Jun, 2023

时间至上：为视频 Transformer 提供时间自监督

本文提出了一种面向视频任务的基于 Transformer 的模型，通过自监督学习并增加对视频帧之间时间轴的考虑，有效地消除了空间偏差，提升了模型对于时间动态的表征能力并实现了很好的视频分类效果。

Jul, 2022

Video Swin Transformer

本文介绍了一种针对视频领域的区域局部性 Transformer 架构，通过使用 Swin Transformer 设计来实现，同时利用预训练模型的威力，取得了行动识别和时间建模等广泛的视频识别基准的最新准确性。

Jun, 2021

ViViT: 一种视频视觉 Transformer

本研究提出一种基于纯 Transformer 模型的视频分类方法，采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记，并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列，我们提出了一些高效的模型变体，可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效，但我们展示了如何有效规范化模型，并利用预训练的图像模型，使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究，并在多个视频分类基准测试中实现了最先进的结果，包括 Kinetics 400 和 600，Epic Kitchens，Something-Something v2 和 Moments in Time，优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究，我们在以下链接中发布了代码。

Mar, 2021

VidTr: 不使用卷积的视频 Transformer

通过可分离的注意力机制，利用堆叠的注意力聚合时空信息，高效地实现了视频分类、时空建模以及长期时间推理，并通过优化模型提高了模型效率与性能。

Apr, 2021

VPTR 视频预测的高效 Transformer

本文提出了一个基于局部时空分离的有效空间 - 时间注意机制的 Transformer 块，用于视频未来帧预测，并构建了一个全自回归视频未来帧预测 Transformer 框架，另外还提出了一个非自回归视频预测 Transformer 框架，并引入对比特征损失来监督模型预测过程。本文是第一个在不同场景下对这两种基于注意力的视频未来帧预测模型进行正式比较的工作，所提出的模型在性能上与更复杂的现有模型竞争力相当。

Mar, 2022