UniFormer：用于高效时空表示学习的统一 Transformer

ICLRJan, 2022

UniFormer：用于高效时空表示学习的统一 Transformer

UniFormer: Unified Transformer for Efficient Spatiotemporal Representation Learning

Kunchang Li, Yali Wang, Peng Gao, Guanglu Song, Yu Liu...

TL;DR本研究提出了一种新型的视频分类模型 ——UniFormer，它集成了 3D 卷积和自注意力机制的优点，通过浅层和深层分别学习本地和全局特征，从而在计算量和准确性之间取得了理想的平衡，经实验证明该模型的泛化和针对性能均优于其他方法。

Abstract

It is a challenging task to learn rich and multi-scale spatiotemporal semantics from high-dimensional videos, due to large local redundancy and complex global dependency between video frames. The recent advances in this research have been mainly driven by 3d convolutional neural networks

spatiotemporal semantics 3d convolutional neural networks vision transformers uniformer video classification

发现论文，激发创造

UniFormerV2：将图像 ViTs 赋能视频的时空学习

本文提出了一种用于构建视频网络家族的通用范例，通过将预训练的 Vision Transformers 与高效的 UniFormer 设计相结合，实现了理想的准确性与计算平衡，并在 8 个常见的视频基准测试中取得了最先进的识别性能。

Nov, 2022

UniFormer：统一卷积和自注意力机制用于视觉识别

提出了一种新方法 UniFormer，能够将 CNN 和 ViT 的优点融合到一个新的强大的支持各种视觉任务，包括图像分类、目标检测、语义分割和姿态估计等的 Transformer 模型中，并在不需要额外训练数据的情况下，达到了 ImageNet-1K 分类的 86.3% 的 top-1 准确率，以及在一系列任务中取得了最先进的性能。

Jan, 2022

DualFormer：面向高效视频识别的分层局部全局 Transformer

本文提出了一种新型的 Transformer 架构 DualFormer 用于视频识别，此架构可以有效地处理空间 - 时间关注，能够捕捉短距离和长距离的时空依赖关系，并通过本地 - 全局层次划分策略显著减少注意力计算中的关键值个数，从而提高效率并在五个视频基准测试上验证了 DualFormer 的优越性能。

Dec, 2021

多实体视频 Transformer 用于细粒度视频表示学习

通过重新审视变形器结构来改进视频表示学习领域的状态，利用多实体视频变换器架构及自我监督方法实现了在多个细粒度视频基准上的最先进结果。

Nov, 2023

UNetFormer: 用于三维医学图像分割的统一视觉 Transformer 模型和预训练框架

本文提出了一个统一的框架，它由两个体系结构组成，称为 UNetFormer，具有基于 3D Swin 变压器的编码器和卷积神经网络和变压器的解码器。该架构的设计允许在准确性和计算成本之间满足宽范围的权衡要求。使用 CT 图像进行自我监督预训练，使用 Medical Segmentation Decathlon（MSD）数据集进行肝和肝肿瘤分割任务的 Fine-tune 和测试，并使用 MRI 图像的 BraTS 21 数据集进行脑肿瘤分割，并在 Dice 评分方面优于其他方法。

Apr, 2022

ViViT: 一种视频视觉 Transformer

本研究提出一种基于纯 Transformer 模型的视频分类方法，采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记，并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列，我们提出了一些高效的模型变体，可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效，但我们展示了如何有效规范化模型，并利用预训练的图像模型，使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究，并在多个视频分类基准测试中实现了最先进的结果，包括 Kinetics 400 和 600，Epic Kitchens，Something-Something v2 和 Moments in Time，优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究，我们在以下链接中发布了代码。

Mar, 2021

U-MixFormer：混合注意力的类 UNet Transformer 进行高效语义分割

我们提出了一种新的变换器解码器 U-MixFormer，基于 U-Net 结构设计的，用于高效的语义分割。通过在编码器和解码器阶段之间利用侧连接作为特征查询，我们的方法与以前的变换器方法有所不同。此外，我们创新地混合来自各个编码器和解码器阶段的分层特征图，形成一个统一的键和值表示，从而产生我们独特的混合注意模块。大量实验证明，U-MixFormer 在各种配置上表现出色，并且在 ADE20K 上使用 MSCAN-T 编码器的 mIoU 比 SegFormer 和 FeedFormer 高出 3.3%。

Dec, 2023

时空预测学习的三元注意力变换器

基于历史序列预测未来序列的时空预测学习提供了一种自监督学习范式，主流方法利用循环单元进行建模，但循环单元的并行性不足，常常在现实场景中表现欠佳。为了在保持计算效率的同时提高预测质量，我们提出了一种创新的三元注意力变换器，在设计上捕捉了帧间动态与帧内静态特征。通过将 Triplet Attention Module (TAM) 整合到模型中，我们取代了传统的循环单元，并对时空和通道维度中的自注意力机制进行了深入探索。在这种配置下：(i) 时序标记包含了帧间的抽象表示，有助于捕捉固有的时序依赖性；(ii) 空间和通道的注意力结合，通过在空间和通道维度上进行细粒度交互来改进帧内表示。交替运用时序、空间和通道级别的注意力使得我们的方法能够学习更复杂的短程和长程时空依赖关系。广泛的实验表明，我们的方法在移动物体轨迹预测、交通流预测、驾驶场景预测和人体动作捕捉等多种场景下性能超过了现有的基于循环和非循环方法，达到了最先进水平。

Oct, 2023

SVFormer：一种直接训练的脉冲转换器用于高效的视频动作识别

我们研究了利用脉冲神经网络的直接训练的 SVFormer（Spiking Video transFormer）进行视频动作识别，通过整合局部特征提取、全局自注意力和 SNN 的内在动态、稀疏性和脉冲驱动特性，以更高效和有效的方式提取时空特征，并在两个 RGB 数据集（UCF101、NTU-RGBD60）和一个神经形态学数据集（DVS128-Gesture）上进行了评估，表现出与主流模型相媲美的性能同时功耗更低，UCF101 的准确率达到 84.03%，能耗仅为 21 mJ / 视频，这是在直接训练的深度 SNN 中的最新技术水平，显示出相对于以前的模型的显著优势。

Jun, 2024

UniNeXt：探索一种统一的视觉识别架构

本研究提出了 UniNeXt，对计算机视觉中的通用骨干架构进行了改进，这提高了所有空间令牌混合器的性能，并缩小了它们之间的性能差距，甚至超越了之前的最优解，它还表明了对通用骨干架构的研究的重要性。

Apr, 2023