少即是多：在视觉 Transformer 网络中降低注意力

AAAIMay, 2021

少即是多：在视觉 Transformer 网络中降低注意力

Less is More: Pay Less Attention in Vision Transformers

Zizheng Pan, Bohan Zhuang, Haoyu He, Jing Liu, Jianfei Cai

TL;DR我们提出了一种基于层次结构以及多层感知器与自注意力模块相结合的 Less attention vIsion Transformer（LIT）来提高特征提取效率，并通过学习可变形 Token 合并模块自适应的融合不均匀的信息块，以达到在图像分类、物体检测和实例分割等图像识别任务中具有很好的性能。

Abstract

transformers have become one of the dominant architectures in deep learning, particularly as a powerful alternative to convolutional neural networks (CNNs) in computer vision. However, Transformer training and in

transformers attention vision mlps image recognition

发现论文，激发创造

视觉 Transformer 的每个阶段只需要更少的注意力

Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.

Jun, 2024

Vision Transformers 三要素

本文提出了三种易于实现的视觉 Transformer 变体。第一，可以在不降低精度的情况下并行处理视觉 Transformer 的残差层。第二，对注意力层的权重进行微调就足以适应更高分辨率和其他分类任务，这节省了计算量，减少了微调时的峰值内存消耗，并允许跨任务共享大部分权重。第三，添加基于 MLP 的补丁预处理层，可提高基于补丁掩模的 Bert 式自监督训练效果。作者使用 ImageNet-1k 数据集评估了这些设计选择的影响，并在 ImageNet-v2 测试集上确认了研究发现。文章在六个较小的数据集上评估了转移性能。

Mar, 2022

关注多层感知器

本文提出了一种基于 MLP 的简单网络架构 gMLP，与 Transformer 一样，在关键的自然语言处理和计算机视觉应用中表现不亚于 Transformer。同时，作者进行比较表明，自注意力（self-attention）不是视觉 Transformer 的关键，因为 gMLP 可以实现相同的准确性。}

May, 2021

具有增强自注意力的轻量级视觉 Transformer

本研究提出了 Lite Vision Transformer（LVT），一种新型的轻量级 transformer 网络，其中包含两种增强自注意力机制，以提高模型在移动部署中的性能表现，并在 ImageNet 识别、ADE20K 语义分割和 COCO 全景分割中具有优越性能。

Dec, 2021

具有并行局部和全局自注意力的轻量级视觉变换器

我们将最新的 Vision Transformer PLG-ViT 重新设计为更紧凑和高效的架构，适合于计算资源有限的自动驾驶任务，通过减少参数数量和浮点运算来降低计算复杂性，并在性能适度下降的情况下将大小减小了 5 倍。

Jul, 2023

MLP 可以成为优秀的 Transformer 学习器

通过对非必要的 attention layers 进行选择性去除，本文提出了一种简化视觉 transformer 并减少计算负载的新策略，通过熵的考虑，将不具信息量的 attention layers 整合到相应的 MLP 中，实现仅在某些 transformer blocks 中使用 MLP，实验结果显示该方法可以提高 DeiT-B 的吞吐量和内存限制，并在不影响性能的情况下去除 40% 的 attention layer。

Apr, 2024

PSLT: 一种轻量级视觉变换器，具有阶梯自注意力和渐进移位

本文介绍了使用阶梯自注意力块和渐进式移位机制开发轻量级转换器骨干 (PSTL)，具有较少的计算资源需求，用于各种视觉任务包括图像分类等，相对于现有的模型，PSTL 具有更少的参数和 FLOPs，但在 ImageNet-1k 数据集上却达到了 79.9％的准确率

Apr, 2023

一张图像胜过 16*16 个单词：规模下的图像识别变形金刚

本文研究使用 Transformer 代替 CNN 进行图像分类，实现在计算资源少的情况下，取得比目前卷积网络更好的识别结果，从而在计算机视觉上取得突破。

Oct, 2020

LightViT: 轻量化无卷积视觉 Transformer

本研究提出了一种名为 LightViT 的轻量化 transformer 网络，通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息，从而实现更好的准确性和效率平衡。实验证明，该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。

Jul, 2022

AttentionLite: 面向视觉的高效自注意力模型

本文提出了一种新的框架 AttentionLite，用于生产一类参数和计算效率高的模型，同时结合知识蒸馏和剪枝机制并利用自注意代替卷积进行联合优化，使得模型训练和精细调节的时间大大减少，实验显示 AttentionLite 模型的参数效率可提高 30 倍，计算效率可提高 2 倍且并不影响其准确性。

Dec, 2020