EfficientFormer:在 MobileNet 速度下的视觉 Transformer
通过引入高度成本效益的局部全局局部(LGL)信息交换瓶颈,结合最优的自注意力和卷积,我们引入了 EdgeViTs,这是一种新的轻便 ViTs 家族,它们能够在准确性和设备效率之间的权衡中与最佳轻量级 CNNs 竞争,并优于其他 ViTs 几乎在所有情况下,证实了模型是帕累托最优的。
May, 2022
本研究提出一种高速的视觉Transformer模型EfficientViT,通过优化Memory-Hard Self-Attention (MHSA) 和注意力的多样性等方法,提高其内存利用率,加快模型速度,并在速度和准确性之间取得良好的平衡。
May, 2023
本文研究提出了一些专门为移动设备设计的ViT架构,分析了移动应用场景下ViT网络所面临的挑战,旨在为未来的研究方向提供基础,并选择最佳的ViT视觉架构以适用于移动设备。
May, 2023
我们将最新的Vision Transformer PLG-ViT重新设计为更紧凑和高效的架构,适合于计算资源有限的自动驾驶任务,通过减少参数数量和浮点运算来降低计算复杂性,并在性能适度下降的情况下将大小减小了5倍。
Jul, 2023
轻量级视觉变换器(ViTs)相较于资源受限的移动设备上的轻量级卷积神经网络(CNNs),通过多头自注意模块获得更高的性能和更低的延迟。本研究回顾了轻量级CNNs的高效设计,强调其在移动设备上的潜力,并通过整合轻量级ViTs的高效架构选择增强了一种新的纯轻量级CNNs家族,即RepViT。大量实验证明,RepViT优于现有的轻量级ViTs,并在各种视觉任务中具有有利的延迟。在ImageNet上,RepViT在iPhone 12上实现了超过80%的top-1准确性,延迟接近1毫秒,这在我们的知识范围内是轻量级模型的首次。我们最大的模型RepViT-M3在仅1.3毫秒延迟下获得了81.4%的准确性。代码和训练模型可在https://github.com/jameslahm/RepViT找到。
Jul, 2023
对视觉Transformer及相关架构的效率进行了综合分析,揭示了一系列有趣的见解,例如发现ViT在多个效率度量标准上仍然是最佳选择,同时低推理内存和参数数量时,混合注意力-CNN模型表现良好,模型大小的缩放比图像大小更为重要,FLOPS与训练内存之间存在强正相关性。
Aug, 2023
通过生成式架构搜索,通过掩蔽单元注意力和Q池设计模式创建高效分层视觉Transformer体系结构设计TurboViT,相较于其他10种同等准确度的最新高效视觉Transformer网络架构设计,在ImageNet-1K数据集上实现了显著较小的计算复杂性和更高的计算效率。同时在实时和批处理场景下表现出强大的推理延迟和吞吐量。
Aug, 2023
通过使用高斯过程,我们系统地探索了MobileViT的全局架构因子(如分辨率、宽度和深度)与性能之间的非线性和不确定关系,并提出了扭转全局架构因子的设计原则,从而实现在较小的模型尺寸和计算成本下提高模型精度。
Jun, 2024
本研究旨在解决现有视觉骨干网在速度与准确性之间的权衡问题,通过分析硬件效率而非单纯依赖于MACs来评估模型性能。从宏观与微观设计入手,我们提出了一种新的硬件高效骨干网架构LowFormer,该架构在推理速度与延迟方面均表现出色,同时保持了与当前最优高效骨干网相当或更好的准确性。
Sep, 2024