UniFormerV2：将图像 ViTs 赋能视频的时空学习

Nov, 2022

UniFormerV2：将图像 ViTs 赋能视频的时空学习

UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video UniFormer

Kunchang Li, Yali Wang, Yinan He, Yizhuo Li, Yi Wang...

TL;DR本文提出了一种用于构建视频网络家族的通用范例，通过将预训练的 Vision Transformers 与高效的 UniFormer 设计相结合，实现了理想的准确性与计算平衡，并在 8 个常见的视频基准测试中取得了最先进的识别性能。

Abstract

Learning discriminative spatiotemporal representation is the key problem of video understanding. Recently, vision transformers (ViTs) have shown their power in learning long-term video dependency with self-attent

vision transformers uniformerv2 video understanding relation aggregators state-of-the-art

发现论文，激发创造

UniFormer：用于高效时空表示学习的统一 Transformer

本研究提出了一种新型的视频分类模型 ——UniFormer，它集成了 3D 卷积和自注意力机制的优点，通过浅层和深层分别学习本地和全局特征，从而在计算量和准确性之间取得了理想的平衡，经实验证明该模型的泛化和针对性能均优于其他方法。

Jan, 2022

UniFormer：统一卷积和自注意力机制用于视觉识别

提出了一种新方法 UniFormer，能够将 CNN 和 ViT 的优点融合到一个新的强大的支持各种视觉任务，包括图像分类、目标检测、语义分割和姿态估计等的 Transformer 模型中，并在不需要额外训练数据的情况下，达到了 ImageNet-1K 分类的 86.3% 的 top-1 准确率，以及在一系列任务中取得了最先进的性能。

Jan, 2022

UNetFormer: 用于三维医学图像分割的统一视觉 Transformer 模型和预训练框架

本文提出了一个统一的框架，它由两个体系结构组成，称为 UNetFormer，具有基于 3D Swin 变压器的编码器和卷积神经网络和变压器的解码器。该架构的设计允许在准确性和计算成本之间满足宽范围的权衡要求。使用 CT 图像进行自我监督预训练，使用 Medical Segmentation Decathlon（MSD）数据集进行肝和肝肿瘤分割任务的 Fine-tune 和测试，并使用 MRI 图像的 BraTS 21 数据集进行脑肿瘤分割，并在 Dice 评分方面优于其他方法。

Apr, 2022

AgileFormer：用于医学图像分割的空间敏捷 Transformer UNet

通过引入空间动态组件到视觉变换器 - UNet 中，我们提出一种名为 AgileFormer 的新颖结构，用于处理医学图像分割任务中感兴趣对象的多样外观，实验证明了该方法的有效性。

Mar, 2024

多实体视频 Transformer 用于细粒度视频表示学习

通过重新审视变形器结构来改进视频表示学习领域的状态，利用多实体视频变换器架构及自我监督方法实现了在多个细粒度视频基准上的最先进结果。

Nov, 2023

ViViT: 一种视频视觉 Transformer

本研究提出一种基于纯 Transformer 模型的视频分类方法，采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记，并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列，我们提出了一些高效的模型变体，可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效，但我们展示了如何有效规范化模型，并利用预训练的图像模型，使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究，并在多个视频分类基准测试中实现了最先进的结果，包括 Kinetics 400 和 600，Epic Kitchens，Something-Something v2 和 Moments in Time，优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究，我们在以下链接中发布了代码。

Mar, 2021

SVFormer：一种直接训练的脉冲转换器用于高效的视频动作识别

我们研究了利用脉冲神经网络的直接训练的 SVFormer（Spiking Video transFormer）进行视频动作识别，通过整合局部特征提取、全局自注意力和 SNN 的内在动态、稀疏性和脉冲驱动特性，以更高效和有效的方式提取时空特征，并在两个 RGB 数据集（UCF101、NTU-RGBD60）和一个神经形态学数据集（DVS128-Gesture）上进行了评估，表现出与主流模型相媲美的性能同时功耗更低，UCF101 的准确率达到 84.03%，能耗仅为 21 mJ / 视频，这是在直接训练的深度 SNN 中的最新技术水平，显示出相对于以前的模型的显著优势。

Jun, 2024

DualFormer：面向高效视频识别的分层局部全局 Transformer

本文提出了一种新型的 Transformer 架构 DualFormer 用于视频识别，此架构可以有效地处理空间 - 时间关注，能够捕捉短距离和长距离的时空依赖关系，并通过本地 - 全局层次划分策略显著减少注意力计算中的关键值个数，从而提高效率并在五个视频基准测试上验证了 DualFormer 的优越性能。

Dec, 2021

自监督视频 Transformer

本研究提出了一种基于未标记视频数据进行自监督训练的视频 Transformer 方法。通过使用不同的空间大小和帧速率创建局部和全局的时空视图，实现了视频内 actions 的时空不变性，并且该方法不再需要使用负样本或专用存储器。该方法在动作识别基准数据集（Kinetics-400，UCF-101，HMDB-51 和 SSv2）上表现出色，并能够在小批量的情况下更快地收敛。

Dec, 2021

适应形态：为可扩展视觉识别调整视觉变换器

提出了一种叫做 “AdaptFormer” 的方法，可将预训练的视觉 Transformer 模型快速适应于多个图像和视频识别任务中，在不更新原预训练参数的情况下，只增加不到 2％的额外参数，就能显著提高模型的可迁移性和表现

May, 2022