EfficientFormer：在 MobileNet 速度下的视觉 Transformer

Jun, 2022

EfficientFormer：在 MobileNet 速度下的视觉 Transformer

EfficientFormer: Vision Transformers at MobileNet Speed

Yanyu Li, Geng Yuan, Yang Wen, Eric Hu, Georgios Evangelidis...

TL;DR本文介绍了一种高效的纯Transformer设计方法EfficientFormer，用于实现与MobileNet相当的性能且具有极低的推理延迟，它通过解决ViT中的存储器冗余问题来达到这一目的。

Abstract

vision transformers (ViT) have shown rapid progress in computer vision tasks, achieving promising results on various benchmarks. However, due to the massive number of parameters and model design, e.g., attention mechani

发现论文，激发创造

基于Vision Transformers的轻量级CNN竞争移动设备

通过引入高度成本效益的局部全局局部（LGL）信息交换瓶颈，结合最优的自注意力和卷积，我们引入了 EdgeViTs，这是一种新的轻便 ViTs 家族，它们能够在准确性和设备效率之间的权衡中与最佳轻量级 CNNs 竞争，并优于其他 ViTs 几乎在所有情况下，证实了模型是帕累托最优的。

May, 2022

高效ViT: 带级联分组注意力的内存高效视觉Transformer

本研究提出一种高速的视觉Transformer模型EfficientViT，通过优化Memory-Hard Self-Attention (MHSA) 和注意力的多样性等方法，提高其内存利用率，加快模型速度，并在速度和准确性之间取得良好的平衡。

May, 2023

移动应用的视觉Transformer：简要概述

本文研究提出了一些专门为移动设备设计的ViT架构，分析了移动应用场景下ViT网络所面临的挑战，旨在为未来的研究方向提供基础，并选择最佳的ViT视觉架构以适用于移动设备。

May, 2023

具有并行局部和全局自注意力的轻量级视觉变换器

我们将最新的Vision Transformer PLG-ViT重新设计为更紧凑和高效的架构，适合于计算资源有限的自动驾驶任务，通过减少参数数量和浮点运算来降低计算复杂性，并在性能适度下降的情况下将大小减小了5倍。

Jul, 2023

RepViT：从ViT的视角重新审视移动CNN

轻量级视觉变换器（ViTs）相较于资源受限的移动设备上的轻量级卷积神经网络（CNNs），通过多头自注意模块获得更高的性能和更低的延迟。本研究回顾了轻量级CNNs的高效设计，强调其在移动设备上的潜力，并通过整合轻量级ViTs的高效架构选择增强了一种新的纯轻量级CNNs家族，即RepViT。大量实验证明，RepViT优于现有的轻量级ViTs，并在各种视觉任务中具有有利的延迟。在ImageNet上，RepViT在iPhone 12上实现了超过80％的top-1准确性，延迟接近1毫秒，这在我们的知识范围内是轻量级模型的首次。我们最大的模型RepViT-M3在仅1.3毫秒延迟下获得了81.4％的准确性。代码和训练模型可在https://github.com/jameslahm/RepViT找到。

Jul, 2023

选择哪种Transformer：视觉Transformer效率的比较分析

对视觉Transformer及相关架构的效率进行了综合分析，揭示了一系列有趣的见解，例如发现ViT在多个效率度量标准上仍然是最佳选择，同时低推理内存和参数数量时，混合注意力-CNN模型表现良好，模型大小的缩放比图像大小更为重要，FLOPS与训练内存之间存在强正相关性。

Aug, 2023

TurboViT：通过生成式架构搜索生成快速视觉Transformer

通过生成式架构搜索，通过掩蔽单元注意力和Q池设计模式创建高效分层视觉Transformer体系结构设计TurboViT，相较于其他10种同等准确度的最新高效视觉Transformer网络架构设计，在ImageNet-1K数据集上实现了显著较小的计算复杂性和更高的计算效率。同时在实时和批处理场景下表现出强大的推理延迟和吞吐量。

Aug, 2023

高效视觉变换器的调研：算法、技术和性能评测

这篇文章首先数学上定义了使Vision Transformer高效的策略，描述并讨论了最先进的方法学，并分析了它们在不同应用场景下的性能。

Sep, 2023

通过全局架构因素上的高斯过程优化在MobileViT中的导航效率

通过使用高斯过程，我们系统地探索了MobileViT的全局架构因子（如分辨率、宽度和深度）与性能之间的非线性和不确定关系，并提出了扭转全局架构因子的设计原则，从而实现在较小的模型尺寸和计算成本下提高模型精度。

Jun, 2024

LowFormer：高效的卷积变压器骨干网设计

本研究旨在解决现有视觉骨干网在速度与准确性之间的权衡问题，通过分析硬件效率而非单纯依赖于MACs来评估模型性能。从宏观与微观设计入手，我们提出了一种新的硬件高效骨干网架构LowFormer，该架构在推理速度与延迟方面均表现出色，同时保持了与当前最优高效骨干网相当或更好的准确性。

Sep, 2024