高效ViT: 带级联分组注意力的内存高效视觉Transformer
本文介绍了一种高效的纯Transformer设计方法EfficientFormer,用于实现与MobileNet相当的性能且具有极低的推理延迟,它通过解决ViT中的存储器冗余问题来达到这一目的。
Jun, 2022
该研究提出了Edge-MoE的解决方案,这是第一个针对multi-task ViT的端到端FPGA加速器,其创新包括Novel Reordering Mechanism、Fast Single-Pass Softmax Approximation、Low-Cost GELU Approximation、Unified Computing Unit和Novel Patch Reordering Method。 较GPU和CPU相比,Edge-MoE的能源效率分别提高了2.24x和4.90x。
May, 2023
本文介绍了一种新的卷积神经网络和可见-感知变换神经网络的混合模型——FasterViT,利用HAT方法分层降低全局自注意力的计算复杂度,提高图像处理的吞吐量和效率。FasterViT在各种计算机视觉任务中得到了广泛的验证,并表现出比竞争对手更快,更准确的性能。
Jun, 2023
本文提出了一种名为ShiftAddViT的卷积神经网络,用于多种视觉任务,该网络通过将注意力和多层感知机重新参数化为位移和加法,从而实现在GPU上进行端到端推理加速,并在一定程度上提高了训练和推断效率。
Jun, 2023
对视觉Transformer及相关架构的效率进行了综合分析,揭示了一系列有趣的见解,例如发现ViT在多个效率度量标准上仍然是最佳选择,同时低推理内存和参数数量时,混合注意力-CNN模型表现良好,模型大小的缩放比图像大小更为重要,FLOPS与训练内存之间存在强正相关性。
Aug, 2023
通过生成式架构搜索,通过掩蔽单元注意力和Q池设计模式创建高效分层视觉Transformer体系结构设计TurboViT,相较于其他10种同等准确度的最新高效视觉Transformer网络架构设计,在ImageNet-1K数据集上实现了显著较小的计算复杂性和更高的计算效率。同时在实时和批处理场景下表现出强大的推理延迟和吞吐量。
Aug, 2023
通过引入单头注意力模块并利用减少空间冗余的令牌表示,本文提出了一种内在地防止头部冗余并同时通过并行结合全局和局部信息提高精度的单头视觉变换器(SHViT),在速度和准确度之间达到了最先进的权衡。
Jan, 2024
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.
Jun, 2024
本研究针对现有视觉变换器(ViT)在内存计算(IMC)实现中的能耗和效率问题,提出了TReX框架,通过高效重用注意力机制优化ViT模型,从而实现最佳的准确性、能耗、延迟和面积(EDAP)权衡。研究发现,TReX在仅约1%的准确率下降的情况下,能够在DeiT-S和LV-ViT-S模型中分别实现2.3倍和2.19倍的EDAP减少,并在自然语言处理任务中表现出色。
Aug, 2024