视频分类的 Token Shift Transformer

Aug, 2021

Token Shift Transformer for Video Classification

Hao Zhang, Yanbin Hao, Chong-Wah Ngo

TL;DR提出了一种基于 Token Shift Module 的 Transformer 操作，用于学习 3D 视频表示，以在消除卷积神经网络的同时具有计算效率。实验证明，该方法比现有的卷积方法取得更好的结果。

Abstract

transformer achieves remarkable successes in understanding 1 and 2-dimensional signals (e.g., NLP and Image Content Understanding). As a potential alternative to convolutional neural networks, it shares merits of strong interpretability, high discriminative power on hyper-scale data, a

transformer video signals token shift module 3d video representation computational efficiency

发现论文，激发创造

TS2-Net: 文本 - 视频检索的令牌位移与选择变换器

本文介绍了一种新颖的 Token Shift and Selection Network (TS2-Net)，其中 Token Shift 模块在时间上移动整个 Token 特征以捕捉场景的微小变化，而 Token Selection 模块选择对局部空间语义贡献最大的 Token。在各项主要 text-video 检索基准上，实验结果表明 TS2-Net 取得了最新的最优性能。

Jul, 2022

TSM: 高效视频理解的时间位移模块

该论文提出了一种基于 Temporal Shift Module 的 2D CNN 模型，既具有 3D CNN 的性能又保持了 2D CNN 的计算复杂度，并将该模型扩展至在线设置中，实现实时低延迟的在线视频识别和视频对象检测。该模型在 Something-Something 数据集上性能卓越，在 Jetson Nano 和 Galaxy Note8 等设备上的延迟也很低。

Nov, 2018

ViViT: 一种视频视觉 Transformer

本研究提出一种基于纯 Transformer 模型的视频分类方法，采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记，并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列，我们提出了一些高效的模型变体，可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效，但我们展示了如何有效规范化模型，并利用预训练的图像模型，使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究，并在多个视频分类基准测试中实现了最先进的结果，包括 Kinetics 400 和 600，Epic Kitchens，Something-Something v2 和 Moments in Time，优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究，我们在以下链接中发布了代码。

Mar, 2021

TaylorShift: 使用 Taylor-Softmax 将自注意力的复杂性从平方级转换为线性级（以及反向转换）

TaylorShift 是一种新的 Taylor softmax 重构方法，能够在线性时间和空间内计算完整的 token-to-token 交互，提高了 Transformers 处理长序列的效率，并且在进行分类任务时不会降低准确性。

Mar, 2024

TSM: 基于时间位移模块的边缘设备高效可扩展视频理解

提出了一个高效且高性能的 Temporal Shift Module (TSM)，它能够在进行时间建模时既保证计算效率又保持精度，并且在大规模训练方面具有比 3D 网络更高的可扩展性。

Sep, 2021

空间 - 时间令牌选择的有效视频 Transformer

本文提出了 STTS 框架，这是一种动态选择少量视频关键信息的方法，可以在减小计算量的同时保持较高的识别准确率。

Nov, 2021

基于位移切块的时空表示学习变压器

本研究针对视频分类问题，提出了一种基于 Transformer 与自注意力机制的空时表示学习方法，其中采用 shifted chunk Transformer 对视频帧间数据进行建模，通过局部到全局的多层次学习，构建了视频片段编码器，加强了长期时间依赖的建模能力，并在 Kinetics-400、Kinetics-600、UCF101 和 HMDB51 四个数据集上取得了优于现有最优结果的性能。

Aug, 2021

使视觉 Transformer 真正具有 Shift-Equivariant 性质

提出改进的模块设计，使得 Vision Transformers 在图像分类和语义分割任务中具有真正的平移不变性，并在三个不同数据集上实现了有竞争力的性能表现。

May, 2023

视频 Transformer 的时空混合注意力

本研究论文介绍了一种使用 Transformer 进行视频识别的模型，相较于其他视频识别模型，本模型计算效率更高。为实现此目的，本模型对全时空注意力机制进行两种简化处理：(a) 限制时间注意力于局部时间窗口内，(b) 使用高效的时空混合方法联合对空间和时间位置进行注意力处理，而不增加任何额外的成本。

Jun, 2021

唤醒视觉 Transformer 中的平移等变性

本文提出了一种自适应的多相位锚定算法，该算法可无缝集成到视觉 Transformer 模型中，以确保贴片嵌入和子采样关注模块的移位等变，并利用深度卷积编码位置信息。

Jun, 2023