Video Swin Transformer
本研究提出一种基于纯 Transformer 模型的视频分类方法,采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记,并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列,我们提出了一些高效的模型变体,可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效,但我们展示了如何有效规范化模型,并利用预训练的图像模型,使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究,并在多个视频分类基准测试中实现了最先进的结果,包括 Kinetics 400 和 600,Epic Kitchens,Something-Something v2 和 Moments in Time,优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究,我们在以下链接中发布了代码。
Mar, 2021
本文研究视频分类中使用 Video Swin Transformer 模型进行跨领域分类的泛化能力,使用 Kinetics-400 数据集进行迁移学习减少内存,实现 85% 的 top-1 准确率,但当对象不属于 Kinetics-400 数据集时准确率降低,为 21%。我们结论是,当目标类别与训练模型的类别相同时,VST 能够实现跨领域视频分类。
Oct, 2022
本文提出了一种新的视觉 Transformer,称为 Swin Transformer,它在计算机视觉领域中作为通用骨干具有很强的能力,包括图像分类和目标检测。Swim Transformer 的层次设计和移位窗口方法对于所有多层感知器架构也证明是有益的,并且模型和代码是公开的。
Mar, 2021
本文提出了一种基于 Transformer 的视频识别框架 VTN,它相比于传统的 3D ConvNets,通过整个视频序列的注意力机制实现动作分类,并在训练和推断时分别快 16.1 倍和 5.1 倍,同时在 Kinetics-400 数据集上获得了有竞争力的结果,表明了精度和推断速度之间的权衡。
Feb, 2021
本研究论文介绍了一种使用 Transformer 进行视频识别的模型,相较于其他视频识别模型,本模型计算效率更高。为实现此目的,本模型对全时空注意力机制进行两种简化处理:(a) 限制时间注意力于局部时间窗口内,(b) 使用高效的时空混合方法联合对空间和时间位置进行注意力处理,而不增加任何额外的成本。
Jun, 2021
整合了 CNN 和 RNN 以捕捉时空相关性的方法被广泛应用于时空预测任务中。然而,CNN 学习局部空间信息的特性降低了其捕捉时空相关性的效率,从而限制了其预测准确性。本文中,我们提出了一种新的循环单元 SwinLSTM,它与 Swin Transformer 块和简化版的 LSTM 相结合,用自注意力机制替代了 ConvLSTM 中的卷积结构。此外,我们构建了一个以 SwinLSTM 单元为核心的网络用于时空预测。在 Moving MNIST、Human3.6m、TaxiBJ 和 KTH 数据集上,SwinLSTM 在没有使用特殊技巧的情况下,表现优于最先进的方法,特别在预测准确性方面展现了显著的提升。我们的竞争性实验结果证明了对模型捕捉时空相关性来说学习全局空间依赖性的优势,希望 SwinLSTM 能成为推动时空预测准确性进步的坚实基准。代码可在给定的 URL 中公开获取。
Aug, 2023
该研究调查了 Transformer 模型在建模视频方面的使用,并分析了在处理视频的输入级别时如何更高效地减少冗余、重新引入有用的归纳偏见以及捕捉长期的时间动态,探索了有效的自监督学习策略,表明在视频的行动分类基准测试中,与 3D ConvNets 相比,它们具有更低的计算复杂度。
Jan, 2022
本文提出了一种基于 SwineBERT 的视频字幕生成模型,该模型通过对稠密采样的视频帧进行变换来进行自适应学习,同时通过自适应学习稀疏注意力掩码来对长序列视频进行建模以实现任务性能提升,在五个电影字幕数据集上取得了显著的性能改进和新的最佳结果。
Nov, 2021
近年来,计算机视觉领域中的弱监督语义分割使用基于图像级标签的监督引起了广泛关注。本研究探索了使用 Swin Transformer 的 'SWTformer' 来提高初始种子 CAMs 的准确性,通过结合局部和全局视角。
Jan, 2024