SHViT:带有内存高效宏设计的单头视觉Transformer
本文提出了一种MobileViT轻量级通用视觉变换器,将transformers视为卷积,可用于移动设备,取得了比CNN和ViT更好的性能,特别是在对象检测任务上。
Oct, 2021
通过引入高度成本效益的局部全局局部(LGL)信息交换瓶颈,结合最优的自注意力和卷积,我们引入了 EdgeViTs,这是一种新的轻便 ViTs 家族,它们能够在准确性和设备效率之间的权衡中与最佳轻量级 CNNs 竞争,并优于其他 ViTs 几乎在所有情况下,证实了模型是帕累托最优的。
May, 2022
本文介绍了一种高效的纯Transformer设计方法EfficientFormer,用于实现与MobileNet相当的性能且具有极低的推理延迟,它通过解决ViT中的存储器冗余问题来达到这一目的。
Jun, 2022
本研究提出一种高速的视觉Transformer模型EfficientViT,通过优化Memory-Hard Self-Attention (MHSA) 和注意力的多样性等方法,提高其内存利用率,加快模型速度,并在速度和准确性之间取得良好的平衡。
May, 2023
本文介绍了一种新的卷积神经网络和可见-感知变换神经网络的混合模型——FasterViT,利用HAT方法分层降低全局自注意力的计算复杂度,提高图像处理的吞吐量和效率。FasterViT在各种计算机视觉任务中得到了广泛的验证,并表现出比竞争对手更快,更准确的性能。
Jun, 2023
轻量级视觉变换器(ViTs)相较于资源受限的移动设备上的轻量级卷积神经网络(CNNs),通过多头自注意模块获得更高的性能和更低的延迟。本研究回顾了轻量级CNNs的高效设计,强调其在移动设备上的潜力,并通过整合轻量级ViTs的高效架构选择增强了一种新的纯轻量级CNNs家族,即RepViT。大量实验证明,RepViT优于现有的轻量级ViTs,并在各种视觉任务中具有有利的延迟。在ImageNet上,RepViT在iPhone 12上实现了超过80%的top-1准确性,延迟接近1毫秒,这在我们的知识范围内是轻量级模型的首次。我们最大的模型RepViT-M3在仅1.3毫秒延迟下获得了81.4%的准确性。代码和训练模型可在https://github.com/jameslahm/RepViT找到。
Jul, 2023
通过生成式架构搜索,通过掩蔽单元注意力和Q池设计模式创建高效分层视觉Transformer体系结构设计TurboViT,相较于其他10种同等准确度的最新高效视觉Transformer网络架构设计,在ImageNet-1K数据集上实现了显著较小的计算复杂性和更高的计算效率。同时在实时和批处理场景下表现出强大的推理延迟和吞吐量。
Aug, 2023
通过设计具有高频和低频特征的FMViT混合Vision Transformer模型,以及引入gMLP、RLMHSA和CFB机制来提高模型性能和减少计算开销,我们在各种视觉任务中成功提高了潜在的TensorRT和CoreML平台上的性能,相比现有的CNNs,ViTs和CNNTransformer混合架构,FMViT在性能和计算开销方面取得了卓越的成果。
Nov, 2023
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.
Jun, 2024