LeViT: 一个穿着 ConvNet 外衣的视觉 Transformer 用于更快的推理

Apr, 2021

LeViT: 一个穿着 ConvNet 外衣的视觉 Transformer 用于更快的推理

LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference

Ben Graham, Alaaeldin El-Nouby, Hugo Touvron, Pierre Stock, Armand Joulin...

TL;DR本文介绍了 LeViT：一个用于快速推理图像分类的混合神经网络，它利用了最近在具有高度并行处理硬件竞争力的注意力架构中的发现，重新审视了卷积神经网络文献中的原则以将它们应用于 transformers，特别是带有分辨率降低的激活映射，还引入了一种新的方式来将位置信息集成到 vision transformers 中的注意偏差。

Abstract

We design a family of image classification architectures that optimize the trade-off between accuracy and efficiency in a high-speed regime. Our work exploits recent findings in →

image classification efficiency attention-based architectures transformers levit

发现论文，激发创造

LightViT: 轻量化无卷积视觉 Transformer

本研究提出了一种名为 LightViT 的轻量化 transformer 网络，通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息，从而实现更好的准确性和效率平衡。实验证明，该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。

Jul, 2022

MobileViT：轻量级、通用、面向移动的视觉 Transformer

本文提出了一种 MobileViT 轻量级通用视觉变换器，将 transformers 视为卷积，可用于移动设备，取得了比 CNN 和 ViT 更好的性能，特别是在对象检测任务上。

Oct, 2021

ExMobileViT：移动视觉 Transformer 的轻量分类器扩展

提出了一种有效的结构，通过小的计算开销增强了适用于移动设备的视觉 Transformer 的性能。该结构通过存储来自早期注意力阶段的信息并在最终分类器中重复利用该信息解决了现有方案的弱点。

Sep, 2023

快速视觉 Transformer 模型：具有分层注意力机制

本文介绍了一种新的卷积神经网络和可见 - 感知变换神经网络的混合模型 ——FasterViT，利用 HAT 方法分层降低全局自注意力的计算复杂度，提高图像处理的吞吐量和效率。FasterViT 在各种计算机视觉任务中得到了广泛的验证，并表现出比竞争对手更快，更准确的性能。

Jun, 2023

基于 Vision Transformers 的轻量级 CNN 竞争移动设备

通过引入高度成本效益的局部全局局部（LGL）信息交换瓶颈，结合最优的自注意力和卷积，我们引入了 EdgeViTs，这是一种新的轻便 ViTs 家族，它们能够在准确性和设备效率之间的权衡中与最佳轻量级 CNNs 竞争，并优于其他 ViTs 几乎在所有情况下，证实了模型是帕累托最优的。

May, 2022

高效 ViT: 带级联分组注意力的内存高效视觉 Transformer

本研究提出一种高速的视觉 Transformer 模型 EfficientViT，通过优化 Memory-Hard Self-Attention (MHSA) 和注意力的多样性等方法，提高其内存利用率，加快模型速度，并在速度和准确性之间取得良好的平衡。

May, 2023

RepViT：从 ViT 的视角重新审视移动 CNN

轻量级视觉变换器（ViTs）相较于资源受限的移动设备上的轻量级卷积神经网络（CNNs），通过多头自注意模块获得更高的性能和更低的延迟。本研究回顾了轻量级 CNNs 的高效设计，强调其在移动设备上的潜力，并通过整合轻量级 ViTs 的高效架构选择增强了一种新的纯轻量级 CNNs 家族，即 RepViT。大量实验证明，RepViT 优于现有的轻量级 ViTs，并在各种视觉任务中具有有利的延迟。在 ImageNet 上，RepViT 在 iPhone 12 上实现了超过 80％的 top-1 准确性，延迟接近 1 毫秒，这在我们的知识范围内是轻量级模型的首次。我们最大的模型 RepViT-M3 在仅 1.3 毫秒延迟下获得了 81.4％的准确性。代码和训练模型可在 https://github.com/jameslahm/RepViT 找到。

Jul, 2023

CvT：将卷积引入视觉 Transformer

本文提出了名为 CvT 的新型架构，它通过将卷积引入 ViT 中实现了性能和效率的提升，并在 ImageNet-1K 上表现出优异的性能，验证了此方法的先进性和有效性。

Mar, 2021

LeViT-UNet：使用 Transformer 加速编码器进行医学图像分割

本文提出了一种将 LeViT Transformer 模块集成到 U-Net 结构中的快速、准确的医学图像分割解决方案，该方案在多项挑战性医学图像分割基准测试中展示了良好的性能。

Jul, 2021

AdaViT: 自适应视觉 Transformer 用于高效图像识别

本文提出了 AdaViT，一个自适应的计算框架，旨在提高视觉变换器的推理效率，而只有 0.8％的准确率下降，并在不同的计算预算条件下实现了良好的效率 / 准确性平衡。

Nov, 2021