SHViT：带有内存高效宏设计的单头视觉Transformer

Jan, 2024

SHViT：带有内存高效宏设计的单头视觉Transformer

SHViT: Single-Head Vision Transformer with Memory Efficient Macro Design

Seokju Yun, Youngmin Ro

TL;DR通过引入单头注意力模块并利用减少空间冗余的令牌表示，本文提出了一种内在地防止头部冗余并同时通过并行结合全局和局部信息提高精度的单头视觉变换器（SHViT），在速度和准确度之间达到了最先进的权衡。

Abstract

Recently, efficient vision transformers have shown great performance with low latency on resource-constrained devices. Conventionally, they use 4x4 patch embeddings and a 4-stage structure at the macro level, while utilizing sophisticated attention with multi-head configuration at the

发现论文，激发创造

MobileViT：轻量级、通用、面向移动的视觉Transformer

本文提出了一种MobileViT轻量级通用视觉变换器，将transformers视为卷积，可用于移动设备，取得了比CNN和ViT更好的性能，特别是在对象检测任务上。

Oct, 2021

基于Vision Transformers的轻量级CNN竞争移动设备

通过引入高度成本效益的局部全局局部（LGL）信息交换瓶颈，结合最优的自注意力和卷积，我们引入了 EdgeViTs，这是一种新的轻便 ViTs 家族，它们能够在准确性和设备效率之间的权衡中与最佳轻量级 CNNs 竞争，并优于其他 ViTs 几乎在所有情况下，证实了模型是帕累托最优的。

May, 2022

EfficientFormer：在 MobileNet 速度下的视觉 Transformer

本文介绍了一种高效的纯Transformer设计方法EfficientFormer，用于实现与MobileNet相当的性能且具有极低的推理延迟，它通过解决ViT中的存储器冗余问题来达到这一目的。

Jun, 2022

高效ViT: 带级联分组注意力的内存高效视觉Transformer

本研究提出一种高速的视觉Transformer模型EfficientViT，通过优化Memory-Hard Self-Attention (MHSA) 和注意力的多样性等方法，提高其内存利用率，加快模型速度，并在速度和准确性之间取得良好的平衡。

May, 2023

快速视觉Transformer模型：具有分层注意力机制

本文介绍了一种新的卷积神经网络和可见-感知变换神经网络的混合模型——FasterViT，利用HAT方法分层降低全局自注意力的计算复杂度，提高图像处理的吞吐量和效率。FasterViT在各种计算机视觉任务中得到了广泛的验证，并表现出比竞争对手更快，更准确的性能。

Jun, 2023

RepViT：从ViT的视角重新审视移动CNN

轻量级视觉变换器（ViTs）相较于资源受限的移动设备上的轻量级卷积神经网络（CNNs），通过多头自注意模块获得更高的性能和更低的延迟。本研究回顾了轻量级CNNs的高效设计，强调其在移动设备上的潜力，并通过整合轻量级ViTs的高效架构选择增强了一种新的纯轻量级CNNs家族，即RepViT。大量实验证明，RepViT优于现有的轻量级ViTs，并在各种视觉任务中具有有利的延迟。在ImageNet上，RepViT在iPhone 12上实现了超过80％的top-1准确性，延迟接近1毫秒，这在我们的知识范围内是轻量级模型的首次。我们最大的模型RepViT-M3在仅1.3毫秒延迟下获得了81.4％的准确性。代码和训练模型可在https://github.com/jameslahm/RepViT找到。

Jul, 2023

TurboViT：通过生成式架构搜索生成快速视觉Transformer

通过生成式架构搜索，通过掩蔽单元注意力和Q池设计模式创建高效分层视觉Transformer体系结构设计TurboViT，相较于其他10种同等准确度的最新高效视觉Transformer网络架构设计，在ImageNet-1K数据集上实现了显著较小的计算复杂性和更高的计算效率。同时在实时和批处理场景下表现出强大的推理延迟和吞吐量。

Aug, 2023

高效视觉变换器的调研：算法、技术和性能评测

这篇文章首先数学上定义了使Vision Transformer高效的策略，描述并讨论了最先进的方法学，并分析了它们在不同应用场景下的性能。

Sep, 2023

FMViT：多频混合视觉Transformer

通过设计具有高频和低频特征的FMViT混合Vision Transformer模型，以及引入gMLP、RLMHSA和CFB机制来提高模型性能和减少计算开销，我们在各种视觉任务中成功提高了潜在的TensorRT和CoreML平台上的性能，相比现有的CNNs，ViTs和CNNTransformer混合架构，FMViT在性能和计算开销方面取得了卓越的成果。

Nov, 2023

视觉Transformer的每个阶段只需要更少的注意力

Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.

Jun, 2024