AttentionLite: 面向视觉的高效自注意力模型

Dec, 2020

AttentionLite: 面向视觉的高效自注意力模型

AttentionLite: Towards Efficient Self-Attention Models for Vision

Souvik Kundu, Sairam Sundaresan

TL;DR本文提出了一种新的框架 AttentionLite，用于生产一类参数和计算效率高的模型，同时结合知识蒸馏和剪枝机制并利用自注意代替卷积进行联合优化，使得模型训练和精细调节的时间大大减少，实验显示 AttentionLite 模型的参数效率可提高 30 倍，计算效率可提高 2 倍且并不影响其准确性。

Abstract

We propose a novel framework for producing a class of parameter and compute efficient models called AttentionLitesuitable for resource-constrained applications. Prior work has primarily focused on optimizing models either via knowledge distillation or →

attentionlite parameter efficiency compute efficiency knowledge distillation pruning

发现论文，激发创造

少即是多：在视觉 Transformer 网络中降低注意力

我们提出了一种基于层次结构以及多层感知器与自注意力模块相结合的 Less attention vIsion Transformer（LIT）来提高特征提取效率，并通过学习可变形 Token 合并模块自适应的融合不均匀的信息块，以达到在图像分类、物体检测和实例分割等图像识别任务中具有很好的性能。

May, 2021

基于 Vision Transformers 的轻量级 CNN 竞争移动设备

通过引入高度成本效益的局部全局局部（LGL）信息交换瓶颈，结合最优的自注意力和卷积，我们引入了 EdgeViTs，这是一种新的轻便 ViTs 家族，它们能够在准确性和设备效率之间的权衡中与最佳轻量级 CNNs 竞争，并优于其他 ViTs 几乎在所有情况下，证实了模型是帕累托最优的。

May, 2022

具有增强自注意力的轻量级视觉 Transformer

本研究提出了 Lite Vision Transformer（LVT），一种新型的轻量级 transformer 网络，其中包含两种增强自注意力机制，以提高模型在移动部署中的性能表现，并在 ImageNet 识别、ADE20K 语义分割和 COCO 全景分割中具有优越性能。

Dec, 2021

针对参数高效视觉骨干，扩大局部自注意力的规模

该论文研究了自注意力在计算机视觉领域的应用，并提出了两种改进模型的方法，使其在速度、内存使用和准确性等方面优于传统的卷积模型，进而提出了一种名为 HaloNets 的新的自注意力模型家族，并在 ImageNet 分类基准测试中取得了最先进的准确性。

Mar, 2021

快速视觉 Transformer 与 HiLo 注意力

LITv2 是一种基于直接速度评估的设计原则和使用新的自我注意机制 HiLo 的高效 ViT，可以极大地提高图像分类、密集检测和分割等主流视觉任务的效率。

May, 2022

视觉 Transformer 的每个阶段只需要更少的注意力

Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.

Jun, 2024

视觉模型中的独立自注意力

通过使用自注意力替换空间卷积操作，得出了一个完全的自注意力模型，该模型相比于基线 ImageNet 分类任务具有 12％更少的 FLOPS 和 29％更少的参数，而在 COCO 目标检测方面，与基线 RetinaNet 匹配的 mAP，但具有 39％更少的 FLOPS 和 34％更少的参数。

Jun, 2019

具有并行局部和全局自注意力的轻量级视觉变换器

我们将最新的 Vision Transformer PLG-ViT 重新设计为更紧凑和高效的架构，适合于计算资源有限的自动驾驶任务，通过减少参数数量和浮点运算来降低计算复杂性，并在性能适度下降的情况下将大小减小了 5 倍。

Jul, 2023

高效视觉变换器的调研：算法、技术和性能评测

这篇文章首先数学上定义了使 Vision Transformer 高效的策略，描述并讨论了最先进的方法学，并分析了它们在不同应用场景下的性能。

Sep, 2023

LightViT: 轻量化无卷积视觉 Transformer

本研究提出了一种名为 LightViT 的轻量化 transformer 网络，通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息，从而实现更好的准确性和效率平衡。实验证明，该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。

Jul, 2022