多领域视频分类的迁移学习：Video Swin Transformer

Oct, 2022

多领域视频分类的迁移学习：Video Swin Transformer

Transfer-learning for video classification: Video Swin Transformer on multiple domains

Daniel Oliveira, David Martins de Matos

TL;DR本文研究视频分类中使用 Video Swin Transformer 模型进行跨领域分类的泛化能力，使用 Kinetics-400 数据集进行迁移学习减少内存，实现 85% 的 top-1 准确率，但当对象不属于 Kinetics-400 数据集时准确率降低，为 21%。我们结论是，当目标类别与训练模型的类别相同时，VST 能够实现跨领域视频分类。

Abstract

The computer vision community has seen a shift from convolutional-based to pure transformer architectures for both image and video tasks. Training a transformer from zero for these tasks usually requires a lot of data and computational resources. →

video swin transformer transfer learning out-of-domain classification video classification transformer architectures

发现论文，激发创造

Video Swin Transformer

本文介绍了一种针对视频领域的区域局部性 Transformer 架构，通过使用 Swin Transformer 设计来实现，同时利用预训练模型的威力，取得了行动识别和时间建模等广泛的视频识别基准的最新准确性。

Jun, 2021

ViViT: 一种视频视觉 Transformer

本研究提出一种基于纯 Transformer 模型的视频分类方法，采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记，并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列，我们提出了一些高效的模型变体，可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效，但我们展示了如何有效规范化模型，并利用预训练的图像模型，使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究，并在多个视频分类基准测试中实现了最先进的结果，包括 Kinetics 400 和 600，Epic Kitchens，Something-Something v2 和 Moments in Time，优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究，我们在以下链接中发布了代码。

Mar, 2021

利用 Swin Transformer 进行局部到全局弱监督语义分割

近年来，计算机视觉领域中的弱监督语义分割使用基于图像级标签的监督引起了广泛关注。本研究探索了使用 Swin Transformer 的 'SWTformer' 来提高初始种子 CAMs 的准确性，通过结合局部和全局视角。

Jan, 2024

视频目标分割的层次化时空 Transformer

本文提出了一种名为 HST 的半监督视频对象分割框架，使用 Swin Transformer 和 Video Swin Transformer 提取图像和视频特征，并使用内存读取操作产生层次特征以精确重构对象蒙版，该框架在处理复杂场景下具有有效性和鲁棒性，尤其是 HST-B 在多个流行基准测试中优于现有技术。

Jul, 2023

使用视频和图像联合训练 Transformer 提高动作识别

本文探索视频 transformer 的几个训练范式，并提出了一种称为 CoVeR 的方法，通过与图像的共同训练，提高了视频 transformer 的性能，尤其是在动作识别上，取得了最好的结果。

Dec, 2021

Swin-Free：采用窗口大小变化实现更好的跨窗口关注和效率

本研究旨在提高计算机视觉中 Transformer 模型的精度和效率，通过在 Swin Transformer 模型中引入可变大小的窗口来实现本地窗口之间的交叉连接，以提高模型准确性和速度。

Jun, 2023

VST++：高效且更强力的视觉显著性 Transformer

我们提出了一种名为 VST++ 的有效且强大的模型，以更低的计算成本实现了比现有方法更好的性能，同时突出了其潜力。

Oct, 2023

视频变形网络

本文提出了一种基于 Transformer 的视频识别框架 VTN，它相比于传统的 3D ConvNets，通过整个视频序列的注意力机制实现动作分类，并在训练和推断时分别快 16.1 倍和 5.1 倍，同时在 Kinetics-400 数据集上获得了有竞争力的结果，表明了精度和推断速度之间的权衡。

Feb, 2021

重新审视分类器：将视觉语言模型应用于视频识别

该研究重点研究了通过使用不同于传统方法的先前训练模型知识来改进视频分类的方法，简单而有效的调整模式在各种视频识别场景中达到了最先进的表现。

Jul, 2022

使用小数据集高效训练视觉 Transformer

本文研究使用自监督任务和少量数据进行训练的 Visual Transformer 网络的表现，并发现新的自监督任务可以在空间关系方面鼓励 VT 网络，从而显著提高其小数据集准确性。

Jun, 2021