MobileViT:轻量级、通用、面向移动的视觉 Transformer
轻量级视觉变换器(ViTs)相较于资源受限的移动设备上的轻量级卷积神经网络(CNNs),通过多头自注意模块获得更高的性能和更低的延迟。本研究回顾了轻量级 CNNs 的高效设计,强调其在移动设备上的潜力,并通过整合轻量级 ViTs 的高效架构选择增强了一种新的纯轻量级 CNNs 家族,即 RepViT。大量实验证明,RepViT 优于现有的轻量级 ViTs,并在各种视觉任务中具有有利的延迟。在 ImageNet 上,RepViT 在 iPhone 12 上实现了超过 80%的 top-1 准确性,延迟接近 1 毫秒,这在我们的知识范围内是轻量级模型的首次。我们最大的模型 RepViT-M3 在仅 1.3 毫秒延迟下获得了 81.4%的准确性。代码和训练模型可在 https://github.com/jameslahm/RepViT 找到。
Jul, 2023
提出了一种有效的结构,通过小的计算开销增强了适用于移动设备的视觉 Transformer 的性能。该结构通过存储来自早期注意力阶段的信息并在最终分类器中重复利用该信息解决了现有方案的弱点。
Sep, 2023
本研究提出了一种名为 LightViT 的轻量化 transformer 网络,通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息,从而实现更好的准确性和效率平衡。实验证明,该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。
Jul, 2022
通过引入高度成本效益的局部全局局部(LGL)信息交换瓶颈,结合最优的自注意力和卷积,我们引入了 EdgeViTs,这是一种新的轻便 ViTs 家族,它们能够在准确性和设备效率之间的权衡中与最佳轻量级 CNNs 竞争,并优于其他 ViTs 几乎在所有情况下,证实了模型是帕累托最优的。
May, 2022
本文研究提出了一些专门为移动设备设计的 ViT 架构,分析了移动应用场景下 ViT 网络所面临的挑战,旨在为未来的研究方向提供基础,并选择最佳的 ViT 视觉架构以适用于移动设备。
May, 2023
MobileViT 使用卷积神经网络和视觉 transformer 结合,提出了 MobileViTv3-block 来处理模型缩放以及简化学习任务问题,其在 ImageNet-1k、ADE20K、COCO 和 PascalVOC2012 数据集上表现更优。
Sep, 2022
轻量级视觉转换 (ViT) 在高效医学图像分割中的应用挑战,本研究重新关注了 CNN 和 Transformer 在轻量级医学图像分割中的关系,并提出了一种融合两者优势的基础架构设计,实现了有效的医学图像分割模型 (MobileUtr)。在五个公开医学图像数据集上的广泛实验验证了 MobileUtr 的优越性,同时具备更轻的权重和更低的计算成本。
Dec, 2023
通过设计具有高频和低频特征的 FMViT 混合 Vision Transformer 模型,以及引入 gMLP、RLMHSA 和 CFB 机制来提高模型性能和减少计算开销,我们在各种视觉任务中成功提高了潜在的 TensorRT 和 CoreML 平台上的性能,相比现有的 CNNs,ViTs 和 CNNTransformer 混合架构,FMViT 在性能和计算开销方面取得了卓越的成果。
Nov, 2023
轻量级视觉 Transformer(ViT)可以通过预训练和最小的图像缩放,实现优于 ResNet 等卷积神经网络在小数据集和小图像分辨率上的性能,而不需要显著地增大图像。
Feb, 2024
本文提出 Next-ViT 模型,使用 Next Convolution Block 和 Next Transformer Block 捕获局部和全局信息,以加速多种视觉任务的表现,同时保持与最先进的 CNN-Transformer 混合框架的可比性,可用于实际工业场景中的高效部署。
Jul, 2022