高效ViT: 带级联分组注意力的内存高效视觉Transformer

May, 2023

高效ViT: 带级联分组注意力的内存高效视觉Transformer

EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention

Xinyu Liu, Houwen Peng, Ningxin Zheng, Yuqing Yang, Han Hu...

TL;DR本研究提出一种高速的视觉Transformer模型EfficientViT，通过优化Memory-Hard Self-Attention (MHSA) 和注意力的多样性等方法，提高其内存利用率，加快模型速度，并在速度和准确性之间取得良好的平衡。

Abstract

vision transformers have shown great success due to their high model capabilities. However, their remarkable performance is accompanied by heavy computation costs, which makes them unsuitable for real-time applications<

发现论文，激发创造

EfficientFormer：在 MobileNet 速度下的视觉 Transformer

本文介绍了一种高效的纯Transformer设计方法EfficientFormer，用于实现与MobileNet相当的性能且具有极低的推理延迟，它通过解决ViT中的存储器冗余问题来达到这一目的。

Jun, 2022

Edge-MoE：使用Experts混合方法的记忆高效式多任务视觉Transformer架构和任务级别稀疏性

该研究提出了Edge-MoE的解决方案，这是第一个针对multi-task ViT的端到端FPGA加速器，其创新包括Novel Reordering Mechanism、Fast Single-Pass Softmax Approximation、Low-Cost GELU Approximation、Unified Computing Unit和Novel Patch Reordering Method。较GPU和CPU相比，Edge-MoE的能源效率分别提高了2.24x和4.90x。

May, 2023

快速视觉Transformer模型：具有分层注意力机制

本文介绍了一种新的卷积神经网络和可见-感知变换神经网络的混合模型——FasterViT，利用HAT方法分层降低全局自注意力的计算复杂度，提高图像处理的吞吐量和效率。FasterViT在各种计算机视觉任务中得到了广泛的验证，并表现出比竞争对手更快，更准确的性能。

Jun, 2023

ShiftAddViT：基于混杂乘法原语的高效视觉Transformer

本文提出了一种名为ShiftAddViT的卷积神经网络，用于多种视觉任务，该网络通过将注意力和多层感知机重新参数化为位移和加法，从而实现在GPU上进行端到端推理加速，并在一定程度上提高了训练和推断效率。

Jun, 2023

选择哪种Transformer：视觉Transformer效率的比较分析

对视觉Transformer及相关架构的效率进行了综合分析，揭示了一系列有趣的见解，例如发现ViT在多个效率度量标准上仍然是最佳选择，同时低推理内存和参数数量时，混合注意力-CNN模型表现良好，模型大小的缩放比图像大小更为重要，FLOPS与训练内存之间存在强正相关性。

Aug, 2023

TurboViT：通过生成式架构搜索生成快速视觉Transformer

通过生成式架构搜索，通过掩蔽单元注意力和Q池设计模式创建高效分层视觉Transformer体系结构设计TurboViT，相较于其他10种同等准确度的最新高效视觉Transformer网络架构设计，在ImageNet-1K数据集上实现了显著较小的计算复杂性和更高的计算效率。同时在实时和批处理场景下表现出强大的推理延迟和吞吐量。

Aug, 2023

高效视觉变换器的调研：算法、技术和性能评测

这篇文章首先数学上定义了使Vision Transformer高效的策略，描述并讨论了最先进的方法学，并分析了它们在不同应用场景下的性能。

Sep, 2023

SHViT：带有内存高效宏设计的单头视觉Transformer

通过引入单头注意力模块并利用减少空间冗余的令牌表示，本文提出了一种内在地防止头部冗余并同时通过并行结合全局和局部信息提高精度的单头视觉变换器（SHViT），在速度和准确度之间达到了最先进的权衡。

Jan, 2024

视觉Transformer的每个阶段只需要更少的注意力

Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.

Jun, 2024

重用视觉变换器的注意力以实现高效的Xbar计算

本研究针对现有视觉变换器（ViT）在内存计算（IMC）实现中的能耗和效率问题，提出了TReX框架，通过高效重用注意力机制优化ViT模型，从而实现最佳的准确性、能耗、延迟和面积（EDAP）权衡。研究发现，TReX在仅约1%的准确率下降的情况下，能够在DeiT-S和LV-ViT-S模型中分别实现2.3倍和2.19倍的EDAP减少，并在自然语言处理任务中表现出色。

Aug, 2024