少即是多:在视觉 Transformer 网络中降低注意力
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.
Jun, 2024
本文提出了三种易于实现的视觉 Transformer 变体。第一,可以在不降低精度的情况下并行处理视觉 Transformer 的残差层。第二,对注意力层的权重进行微调就足以适应更高分辨率和其他分类任务,这节省了计算量,减少了微调时的峰值内存消耗,并允许跨任务共享大部分权重。第三,添加基于 MLP 的补丁预处理层,可提高基于补丁掩模的 Bert 式自监督训练效果。作者使用 ImageNet-1k 数据集评估了这些设计选择的影响,并在 ImageNet-v2 测试集上确认了研究发现。文章在六个较小的数据集上评估了转移性能。
Mar, 2022
本文提出了一种基于 MLP 的简单网络架构 gMLP,与 Transformer 一样,在关键的自然语言处理和计算机视觉应用中表现不亚于 Transformer。同时,作者进行比较表明,自注意力(self-attention)不是视觉 Transformer 的关键,因为 gMLP 可以实现相同的准确性。}
May, 2021
本研究提出了 Lite Vision Transformer(LVT),一种新型的轻量级 transformer 网络,其中包含两种增强自注意力机制,以提高模型在移动部署中的性能表现,并在 ImageNet 识别、ADE20K 语义分割和 COCO 全景分割中具有优越性能。
Dec, 2021
我们将最新的 Vision Transformer PLG-ViT 重新设计为更紧凑和高效的架构,适合于计算资源有限的自动驾驶任务,通过减少参数数量和浮点运算来降低计算复杂性,并在性能适度下降的情况下将大小减小了 5 倍。
Jul, 2023
通过对非必要的 attention layers 进行选择性去除,本文提出了一种简化视觉 transformer 并减少计算负载的新策略,通过熵的考虑,将不具信息量的 attention layers 整合到相应的 MLP 中,实现仅在某些 transformer blocks 中使用 MLP,实验结果显示该方法可以提高 DeiT-B 的吞吐量和内存限制,并在不影响性能的情况下去除 40% 的 attention layer。
Apr, 2024
本文介绍了使用阶梯自注意力块和渐进式移位机制开发轻量级转换器骨干 (PSTL),具有较少的计算资源需求,用于各种视觉任务包括图像分类等,相对于现有的模型,PSTL 具有更少的参数和 FLOPs,但在 ImageNet-1k 数据集上却达到了 79.9%的准确率
Apr, 2023
本文研究使用 Transformer 代替 CNN 进行图像分类,实现在计算资源少的情况下,取得比目前卷积网络更好的识别结果,从而在计算机视觉上取得突破。
Oct, 2020
本研究提出了一种名为 LightViT 的轻量化 transformer 网络,通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息,从而实现更好的准确性和效率平衡。实验证明,该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。
Jul, 2022
本文提出了一种新的框架 AttentionLite,用于生产一类参数和计算效率高的模型,同时结合知识蒸馏和剪枝机制并利用自注意代替卷积进行联合优化,使得模型训练和精细调节的时间大大减少,实验显示 AttentionLite 模型的参数效率可提高 30 倍,计算效率可提高 2 倍且并不影响其准确性。
Dec, 2020