DualFormer：面向高效视频识别的分层局部全局 Transformer

ECCVDec, 2021

DualFormer：面向高效视频识别的分层局部全局 Transformer

DualFormer: Local-Global Stratified Transformer for Efficient Video Recognition

Yuxuan Liang, Pan Zhou, Roger Zimmermann, Shuicheng Yan

TL;DR本文提出了一种新型的 Transformer 架构 DualFormer 用于视频识别，此架构可以有效地处理空间 - 时间关注，能够捕捉短距离和长距离的时空依赖关系，并通过本地 - 全局层次划分策略显著减少注意力计算中的关键值个数，从而提高效率并在五个视频基准测试上验证了 DualFormer 的优越性能。

Abstract

While transformers have shown great potential on video recognition with their strong capability of capturing long-range dependencies, they often suffer high computational costs induced by the self-attention to th

transformers video recognition attention computation dualformer spatiotemporal dependencies

发现论文，激发创造

UniFormer：用于高效时空表示学习的统一 Transformer

本研究提出了一种新型的视频分类模型 ——UniFormer，它集成了 3D 卷积和自注意力机制的优点，通过浅层和深层分别学习本地和全局特征，从而在计算量和准确性之间取得了理想的平衡，经实验证明该模型的泛化和针对性能均优于其他方法。

Jan, 2022

视频 Transformer 的时空混合注意力

本研究论文介绍了一种使用 Transformer 进行视频识别的模型，相较于其他视频识别模型，本模型计算效率更高。为实现此目的，本模型对全时空注意力机制进行两种简化处理：(a) 限制时间注意力于局部时间窗口内，(b) 使用高效的时空混合方法联合对空间和时间位置进行注意力处理，而不增加任何额外的成本。

Jun, 2021

局部到全局的视觉 Transformer 自注意力

本研究提出了多通路结构的 Transformer 模型，实现局部到全局的多粒度特征推理，相较于现有的分层设计模型，在增加了极小的计算量的同时，在图像分类和语义分割任务上取得了显著的提高。

Jul, 2021

具有分区注意力的双路径 Transformer

本文介绍了一种新颖的双重注意机制，包括由卷积神经网络生成的局部注意和由 Vision Transformer 生成的长程注意，提出了一种新的多头分区关注机制（MHPA）来解决计算复杂性和内存占用的问题，并基于此提出了一个分层视觉骨干网络 DualFormer，在多个计算机视觉任务中都取得了比较好的表现。

May, 2023

空时注意力是否足以理解视频？

该论文提出了一种基于自注意力机制的视频分类方法，名为 TimeSformer，适用于序列级别的视频帧，采用分离式自注意力机制，不仅训练速度比 3D 卷积神经网络更快，而且在多个动作识别数据集上实现了最佳效果，且支持处理长达一分钟的视频.

Feb, 2021

SG-Former: 自我引导变形器与演化式记号重分配

利用自适应细粒度的全局自注意力，SG-Former 模型通过重分配代币实现了高性能，其基本模型在 ImageNet-1K 上达到了 84.7％的 Top-1 准确率，在 CoCo 上达到了 51.2mAP 的 bbAP，在 ADE20K 上达到了 52.7mIoU 的准确率，超过了 Swin Transformer 模型，而计算成本和参数较少。

Aug, 2023

HiFormer: 使用 Transformer 实现的分层多尺度表示，用于医学图像分割

本文提出了一种新的方法 HiFormer，它通过使用 Swin Transformer 模块和基于 CNN 的编码器设计了两种多尺度特征表示来有效地跨越 CNN 和 Transformer 进行医学图像分割。在编码器解码器结构的跳跃连接中，我们提出了 Double-Level Fusion（DLF）模块，以确保从两个上述表示中获得的全局和局部特征的细粒度融合。在各种医学图像分割数据集上的广泛实验表明，HiFormer 在计算复杂度、定量和定性结果方面优于其他基于 CNN、Transformer 和混合方法。

Jul, 2022

MixFormerV2：高效全 Transformer 跟踪

本文提出了一种基于全 Transformer 结构的跟踪框架 MixFormerV2，通过引入四个特殊的预测 tokens，结合目标模板和搜索区域的 tokens，采用 Transformer 骨干网络进行跟踪预测，进而通过简单的 MLP heads 预测跟踪框和评估置信度得分，并提出了一种新的蒸馏模型的减少算法，包括密集到稀疏和深层到浅层的蒸馏，以进一步提高跟踪器性能。

May, 2023

LOGO-Former: 动态面部表情识别中的局部 - 全局时空变换器

提出了一种名为 LOGO-Former 的本地全局时空 Transformer，用于解决人脸表情识别中长期依赖问题，将本地和全局特征结合起来，在两个野外人脸表情数据集上取得了有效的识别性能。

May, 2023

MatchFormer: 用于特征匹配的变形金刚中的交错注意力

本文提出了一种新的层次化提取和匹配变形器 MatchFormer 来提高局部特征匹配的效率和鲁棒性，该方法结合自注意力和跨注意力在多尺度特征的层次化架构上提高匹配鲁棒性，并在室内姿势评估、室外姿势评估、单应性评估和图像匹配检测四个基准测试中均取得 state-of-the-art 的结果。

Mar, 2022