空时注意力是否足以理解视频？

ICMLFeb, 2021

Is Space-Time Attention All You Need for Video Understanding?

Gedas Bertasius, Heng Wang, Lorenzo Torresani

TL;DR该论文提出了一种基于自注意力机制的视频分类方法，名为 TimeSformer，适用于序列级别的视频帧，采用分离式自注意力机制，不仅训练速度比 3D 卷积神经网络更快，而且在多个动作识别数据集上实现了最佳效果，且支持处理长达一分钟的视频.

Abstract

We present a convolution-free approach to video classification built exclusively on self-attention over space and time. Our method, named "timesf

self-attention spatiotemporal feature learning video classification timesformer divided attention

发现论文，激发创造

视频 Transformer 的时空混合注意力

本研究论文介绍了一种使用 Transformer 进行视频识别的模型，相较于其他视频识别模型，本模型计算效率更高。为实现此目的，本模型对全时空注意力机制进行两种简化处理：(a) 限制时间注意力于局部时间窗口内，(b) 使用高效的时空混合方法联合对空间和时间位置进行注意力处理，而不增加任何额外的成本。

Jun, 2021

可解释的时空注意力视频动作识别

通过引入可解释的时空注意力机制来提高视频动作识别的准确性和模型解释性，并使用一组正则化器对其进行约束。利用弱监督的方式仅使用分类标签，模型不仅提高了准确性，还能时空自动定位区分性区域。

Oct, 2018

时空自注意力建模与时间补丁位移在动作识别中的应用

本文提出一种 Temporal Patch Shift（TPS）方法，用于在 transformer 模型中对视频进行高效的三维自注意力建模，可插入到现有的二维 transformer 模型中以增强时空特征学习，该方法在计算和内存成本上比现有方法更加高效，同时在 Something-something V1＆V2、Diving-48 和 Kinetics400 上取得了与最先进水平相当的性能。

Jul, 2022

StarVQA+: 视频质量评估的时空注意共训练

本文提出了一种基于自注意力机制的 Space-Time Attention 网络用于解决视频质量评估问题，通过联合训练空间和时间注意力权重来解决 Transformer 中的数据饥饿问题，并在实际测试中证明了其优越性。

Jun, 2023

AttentionNAS: 基于时空注意力单元搜索的视频分类

提出一种新的用于搜索空间时间关注单元的方法，可以用于改善现有的骨干网络（如 I3D 或 S3D）中的视频分类精度，并在 Kinetics-600 和 MiT 数据集上超过 2％。

Jul, 2020

VidTr: 不使用卷积的视频 Transformer

通过可分离的注意力机制，利用堆叠的注意力聚合时空信息，高效地实现了视频分类、时空建模以及长期时间推理，并通过优化模型提高了模型效率与性能。

Apr, 2021

关系自注意力：视频理解中注意力缺少的部分

本文提出了一种基于动态生成关系卷积核和聚合关系背景的关系特征变换 —— 关系自注意力 (RSA)，用于视频理解。通过实验和消融研究，证明 RSA 网络在视频动作识别等领域明显优于传统卷积和自注意力网络。

Nov, 2021

基于位移切块的时空表示学习变压器

本研究针对视频分类问题，提出了一种基于 Transformer 与自注意力机制的空时表示学习方法，其中采用 shifted chunk Transformer 对视频帧间数据进行建模，通过局部到全局的多层次学习，构建了视频片段编码器，加强了长期时间依赖的建模能力，并在 Kinetics-400、Kinetics-600、UCF101 和 HMDB51 四个数据集上取得了优于现有最优结果的性能。

Aug, 2021

DualFormer：面向高效视频识别的分层局部全局 Transformer

本文提出了一种新型的 Transformer 架构 DualFormer 用于视频识别，此架构可以有效地处理空间 - 时间关注，能够捕捉短距离和长距离的时空依赖关系，并通过本地 - 全局层次划分策略显著减少注意力计算中的关键值个数，从而提高效率并在五个视频基准测试上验证了 DualFormer 的优越性能。

Dec, 2021

使用状态空间视频模型进行长视频片段分类

提出了一种结合自我关注和 S4 层优点的高效长范围视频模型，具有复杂的长范围时空依赖性，比传统的全自注意模型快 2.63 倍，占用 8 倍更少的 GPU 内存，并在视频分类等任务中取得了最先进的结果。

Apr, 2022