视频分类的 Token Shift Transformer
本文介绍了一种新颖的 Token Shift and Selection Network (TS2-Net),其中 Token Shift 模块在时间上移动整个 Token 特征以捕捉场景的微小变化,而 Token Selection 模块选择对局部空间语义贡献最大的 Token。在各项主要 text-video 检索基准上,实验结果表明 TS2-Net 取得了最新的最优性能。
Jul, 2022
该论文提出了一种基于 Temporal Shift Module 的 2D CNN 模型,既具有 3D CNN 的性能又保持了 2D CNN 的计算复杂度,并将该模型扩展至在线设置中,实现实时低延迟的在线视频识别和视频对象检测。该模型在 Something-Something 数据集上性能卓越,在 Jetson Nano 和 Galaxy Note8 等设备上的延迟也很低。
Nov, 2018
本研究提出一种基于纯 Transformer 模型的视频分类方法,采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记,并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列,我们提出了一些高效的模型变体,可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效,但我们展示了如何有效规范化模型,并利用预训练的图像模型,使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究,并在多个视频分类基准测试中实现了最先进的结果,包括 Kinetics 400 和 600,Epic Kitchens,Something-Something v2 和 Moments in Time,优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究,我们在以下链接中发布了代码。
Mar, 2021
TaylorShift 是一种新的 Taylor softmax 重构方法,能够在线性时间和空间内计算完整的 token-to-token 交互,提高了 Transformers 处理长序列的效率,并且在进行分类任务时不会降低准确性。
Mar, 2024
提出了一个高效且高性能的 Temporal Shift Module (TSM),它能够在进行时间建模时既保证计算效率又保持精度,并且在大规模训练方面具有比 3D 网络更高的可扩展性。
Sep, 2021
本研究针对视频分类问题, 提出了一种基于 Transformer 与自注意力机制的空时表示学习方法,其中采用 shifted chunk Transformer 对视频帧间数据进行建模,通过局部到全局的多层次学习,构建了视频片段编码器,加强了长期时间依赖的建模能力,并在 Kinetics-400、Kinetics-600、UCF101 和 HMDB51 四个数据集上取得了优于现有最优结果的性能。
Aug, 2021
提出改进的模块设计,使得 Vision Transformers 在图像分类和语义分割任务中具有真正的平移不变性,并在三个不同数据集上实现了有竞争力的性能表现。
May, 2023
本研究论文介绍了一种使用 Transformer 进行视频识别的模型,相较于其他视频识别模型,本模型计算效率更高。为实现此目的,本模型对全时空注意力机制进行两种简化处理:(a) 限制时间注意力于局部时间窗口内,(b) 使用高效的时空混合方法联合对空间和时间位置进行注意力处理,而不增加任何额外的成本。
Jun, 2021
本文提出了一种自适应的多相位锚定算法,该算法可无缝集成到视觉 Transformer 模型中,以确保贴片嵌入和子采样关注模块的移位等变,并利用深度卷积编码位置信息。
Jun, 2023