MobileViTv3:具备本地、全局和输入特征的简单有效融合的移动友好视觉变换器
本文提出了一种 MobileViT 轻量级通用视觉变换器,将 transformers 视为卷积,可用于移动设备,取得了比 CNN 和 ViT 更好的性能,特别是在对象检测任务上。
Oct, 2021
提出了一种有效的结构,通过小的计算开销增强了适用于移动设备的视觉 Transformer 的性能。该结构通过存储来自早期注意力阶段的信息并在最终分类器中重复利用该信息解决了现有方案的弱点。
Sep, 2023
通过设计具有高频和低频特征的 FMViT 混合 Vision Transformer 模型,以及引入 gMLP、RLMHSA 和 CFB 机制来提高模型性能和减少计算开销,我们在各种视觉任务中成功提高了潜在的 TensorRT 和 CoreML 平台上的性能,相比现有的 CNNs,ViTs 和 CNNTransformer 混合架构,FMViT 在性能和计算开销方面取得了卓越的成果。
Nov, 2023
本文探究了多尺度视觉变换器 (MViTv2) 作为统一的图像和视频分类以及物体检测的架构,提出了一种改进版本的架构,将分解相对位置嵌入和残差池连接融入 MViTv2,并应用在 ImageNet 分类、COCO 检测和 Kinetics 视频识别中,取得了优异的性能,在三个领域的实验表明,相比于传统的拼合注意力机制,MViTv2 的池化类型的注意力机制可以更好地进行特征提取和信息编码。
Dec, 2021
本文提出 Next-ViT 模型,使用 Next Convolution Block 和 Next Transformer Block 捕获局部和全局信息,以加速多种视觉任务的表现,同时保持与最先进的 CNN-Transformer 混合框架的可比性,可用于实际工业场景中的高效部署。
Jul, 2022
通过引入高度成本效益的局部全局局部(LGL)信息交换瓶颈,结合最优的自注意力和卷积,我们引入了 EdgeViTs,这是一种新的轻便 ViTs 家族,它们能够在准确性和设备效率之间的权衡中与最佳轻量级 CNNs 竞争,并优于其他 ViTs 几乎在所有情况下,证实了模型是帕累托最优的。
May, 2022
本文研究提出了一些专门为移动设备设计的 ViT 架构,分析了移动应用场景下 ViT 网络所面临的挑战,旨在为未来的研究方向提供基础,并选择最佳的 ViT 视觉架构以适用于移动设备。
May, 2023
轻量级视觉变换器(ViTs)相较于资源受限的移动设备上的轻量级卷积神经网络(CNNs),通过多头自注意模块获得更高的性能和更低的延迟。本研究回顾了轻量级 CNNs 的高效设计,强调其在移动设备上的潜力,并通过整合轻量级 ViTs 的高效架构选择增强了一种新的纯轻量级 CNNs 家族,即 RepViT。大量实验证明,RepViT 优于现有的轻量级 ViTs,并在各种视觉任务中具有有利的延迟。在 ImageNet 上,RepViT 在 iPhone 12 上实现了超过 80%的 top-1 准确性,延迟接近 1 毫秒,这在我们的知识范围内是轻量级模型的首次。我们最大的模型 RepViT-M3 在仅 1.3 毫秒延迟下获得了 81.4%的准确性。代码和训练模型可在 https://github.com/jameslahm/RepViT 找到。
Jul, 2023
轻量级视觉转换 (ViT) 在高效医学图像分割中的应用挑战,本研究重新关注了 CNN 和 Transformer 在轻量级医学图像分割中的关系,并提出了一种融合两者优势的基础架构设计,实现了有效的医学图像分割模型 (MobileUtr)。在五个公开医学图像数据集上的广泛实验验证了 MobileUtr 的优越性,同时具备更轻的权重和更低的计算成本。
Dec, 2023
Mobile-Former 是一种结合 MobileNet 和 Transformer 的二元桥设计,其具有较低的计算成本和更强的表示能力,可以用于图像分类和对象检测,并在低 FLOP 区间内胜过 MobileNetV3 以及传统目标检测框架 DETR
Aug, 2021