移动视觉 Transformer 的可分离自注意力

Jun, 2022

移动视觉 Transformer 的可分离自注意力

Separable Self-attention for Mobile Vision Transformers

Sachin Mehta, Mohammad Rastegari

TL;DR提出了一种线性复杂度的分离 self-attention 方法，使用此方法的 mobileViTv2 模型在移动设备上运行速度为 MobileViT 的 3.2 倍，同时在 ImageNet 数据集上取得 75.6% 的 top-1 准确率，比 MobileViT 高 1%。

Abstract

Mobile vision transformers (mobilevit) can achieve state-of-the-art performance across several mobile vision tasks, including classification and detection. Though these models have fewer parameters, they have high latency as compared to convolutional neural network-based models. The ma

mobilevit self-attention linear complexity resource-constrained devices mobilevitv2

发现论文，激发创造

高效 ViT: 带级联分组注意力的内存高效视觉 Transformer

本研究提出一种高速的视觉 Transformer 模型 EfficientViT，通过优化 Memory-Hard Self-Attention (MHSA) 和注意力的多样性等方法，提高其内存利用率，加快模型速度，并在速度和准确性之间取得良好的平衡。

May, 2023

MobileViT：轻量级、通用、面向移动的视觉 Transformer

本文提出了一种 MobileViT 轻量级通用视觉变换器，将 transformers 视为卷积，可用于移动设备，取得了比 CNN 和 ViT 更好的性能，特别是在对象检测任务上。

Oct, 2021

TiC: 探索卷积中的视觉变换器

通过结合 Self-Attention 与广义卷积（包括标准卷积、空洞卷积和深度卷积），Multi-Head Self-Attention Convolution (MSA-Conv) 扩展了 Transformer 模型，使其能够处理不同尺寸的图像，降低了计算成本，并且通过引入两种增强策略实现了长距离连接和扩大的感受野，而在图像分类任务中，Vision Transformer in Convolution (TiC) 利用了 MSA-Conv，在 ImageNet-1K 数据集上与目前最先进的方法具有可比性。

Oct, 2023

基于 Vision Transformers 的轻量级 CNN 竞争移动设备

通过引入高度成本效益的局部全局局部（LGL）信息交换瓶颈，结合最优的自注意力和卷积，我们引入了 EdgeViTs，这是一种新的轻便 ViTs 家族，它们能够在准确性和设备效率之间的权衡中与最佳轻量级 CNNs 竞争，并优于其他 ViTs 几乎在所有情况下，证实了模型是帕累托最优的。

May, 2022

MaxViT：多轴视觉变压器

该研究通过引入多轴关注模型和卷积等新元素，提出了一种高效且可扩展的注意力模型，即 MaxViT。利用 MaxViT 作为骨干网络，在图像分类和物体检测等任务上都取得了领先的性能。同时，该模型还证明了其在图像生成方面的潜在优势。

Apr, 2022

用于高效物体跟踪的可分离的自注意力与混合注意力变换器

本文提出了一种用于轻量级追踪的高效自适应混合注意力变压器架构，实现了对相关轻量级追踪策略的显著改进，达到了先进的性能，在多个数据集上运行时帧率较高，参数量较小。

Sep, 2023

视觉 Transformer 的每个阶段只需要更少的注意力

Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.

Jun, 2024

SHViT：带有内存高效宏设计的单头视觉 Transformer

通过引入单头注意力模块并利用减少空间冗余的令牌表示，本文提出了一种内在地防止头部冗余并同时通过并行结合全局和局部信息提高精度的单头视觉变换器（SHViT），在速度和准确度之间达到了最先进的权衡。

Jan, 2024

无 Softmax 的线性变换器

提出 SOftmax-Free Transformer (SOFT)，其采用高斯核函数替代点积相似度，从而能够通过低秩矩阵分解逼近完整的自注意力矩阵，该模型能够明显提高现有 ViT 变体的计算效率，同时具有线性复杂度，且能够容纳更长的令牌序列，优化了准确率和复杂度之间的权衡。

Jul, 2022

ExMobileViT：移动视觉 Transformer 的轻量分类器扩展

提出了一种有效的结构，通过小的计算开销增强了适用于移动设备的视觉 Transformer 的性能。该结构通过存储来自早期注意力阶段的信息并在最终分类器中重复利用该信息解决了现有方案的弱点。

Sep, 2023