MobileOne：一种改进的一毫秒移动骨干网络

CVPRJun, 2022

MobileOne：一种改进的一毫秒移动骨干网络

MobileOne: An Improved One millisecond Mobile Backbone

Pavan Kumar Anasosalu Vasu, James Gabriel, Jeff Zhu, Oncel Tuzel, Anurag Ranjan

TL;DR通过对多个移动设备上的网络进行部署和分析，提出了有效神经网络的优化瓶颈，设计了一种高效的 MobileOne 神经网络，该网络在 iPhone12 上获得了 1 ms 以下的推断时间，并在性能和速度方面超越了现有的语义分割网络。

Abstract

efficient neural network backbones for mobile devices are often optimized for metrics such as FLOPs or parameter count. However, these metrics may not correlate well with latency of the network when deployed on a

efficient neural network mobile devices inference time optimization bottlenecks state-of-the-art performance

发现论文，激发创造

MnasNet：面向移动端平台感知的神经结构搜索

本文提出了一种自动化的移动神经结构搜索（MNAS）方法，该方法将模型延迟明确地纳入主要目标，以便搜索可以识别满足准确性和延迟之间良好平衡的模型，实验结果表明，该方法在多个视觉任务中始终优于现有的移动卷积神经网络模型，并且实现了更好的 mAP 质量。

Jul, 2018

MobileNets：面向移动视觉应用的高效卷积神经网络

本文介绍了 MobileNets 这一基于深度可分离卷积的轻量级深度神经网络架构，提出了利用全局超参数在时延和准确性之间平衡的方法，并在图像分类等多个领域进行了广泛实验。

Apr, 2017

MNN：一种通用高效的推理引擎

本文介绍了移动神经网络（Mobile Neural Network，MNN），它是一种适用于移动应用的普适且高效的推理引擎，解决了在移动设备上进行深度学习模型推理的模型兼容性、设备多样性和资源限制等挑战，采用了称为预推理的机制进行运行时优化，针对操作符进行了彻底的内核优化以实现最佳计算性能，并引入了后端抽象模块，实现了混合调度并保持引擎轻量级。广泛的基准实验表明，MNN 在性能上与其他流行的轻量级深度学习框架相当。

Feb, 2020

MobileFaceNets：基于移动设备实时高准确度人脸验证的高效卷积神经网络

本文提出了 MobileFaceNets 类的 CNN 模型，其使用不到 100 万个参数，专为移动和嵌入式设备上的高准确度实时人脸验证而设计，并成功解决了普通移动网络在人脸验证方面的弱点，达到了与数百 MB 大小的最新大型 CNN 模型相媲美的高精度和更多超过 MobileNetV2 2 倍的实际加速。

Apr, 2018

EfficientFormer：在 MobileNet 速度下的视觉 Transformer

本文介绍了一种高效的纯 Transformer 设计方法 EfficientFormer，用于实现与 MobileNet 相当的性能且具有极低的推理延迟，它通过解决 ViT 中的存储器冗余问题来达到这一目的。

Jun, 2022

MoGA: 超越 MobileNetV3 的搜索

本文提出了 MoGA 神经架构搜索方法，通过 GPU-Aware 技术和加权进化技术，针对实际应用中移动终端 GPU 的特点进行优化，从而达到更好的性能。在类似延迟约束下，MoGA-A 在 ImageNet 上实现了 75.9％的 Top-1 精度，其他模型也表现优异。

Aug, 2019

ShuffleNet: 面向移动设备的高效卷积神经网络

我们推出了一种名为 ShuffleNet 的极度计算效率的卷积神经网络体系结构，专门为计算能力非常有限（例如 10-150 MFLOPs）的移动设备设计。该体系结构利用了两个新操作，即逐点组卷积和通道混洗，以大大降低计算成本，同时保持准确性。在 ImageNet 分类和 MS COCO 对象检测方面的实验表明，ShuffleNet 的性能优于其他结构，在 40 MFLOPs 的计算预算下，Top-1 错误率（绝对 7.8％）低于近期 MobileNet 的 ImageNet 分类任务。在基于 ARM 的移动设备上，ShuffleNet 实现了与 AlexNet 相比约 13 倍的实际加速，同时保持可比的准确性。

Jul, 2017

MobileNetV4 - 移动生态系统通用模型

我们介绍了最新一代的 MobileNets, 称为 MobileNetV4 (MNv4), 具有超高效的移动设备架构设计。我们引入了 Universal Inverted Bottleneck (UIB) 搜索块，这是一种统一而灵活的结构，融合了 Inverted Bottleneck (IB), ConvNext, Feed Forward Network (FFN), 以及一种新颖的 Extra Depthwise (ExtraDW) 变体。此外，我们还提出了 Mobile MQA，一种专为移动加速器量身定制的注意力块，可实现 39% 的加速。同时，我们引入了优化的神经架构搜索（NAS）方法，提高了 MNv4 的搜索效率。UIB，Mobile MQA 以及优化后的 NAS 方法的整合使得我们的 MNv4 模型成为大部分在移动 CPU、DSP、GPU 以及专用加速器（如 Apple Neural Engine 和 Google Pixel EdgeTPU）上都达到 Pareto 最优的模型，这是其他模型不具备的特点。最后，为了进一步提高准确性，我们引入了一种新颖的蒸馏技术。利用这种技术增强，我们的 MNv4-Hybrid-Large 模型在 Pixel 8 EdgeTPU 上只需 3.8ms 的运行时间，达到了 87% 的 ImageNet-1K 准确性。

Apr, 2024

面向移动设备的实时自动人像抠图

通过使用基于多分支扩张卷积的线性瓶颈块的模型 MMNet，我们解决了移动设备上自动人像抠图的问题，实现了实时推断，而且性能下降很小，比现有技术更快。

Apr, 2019

探索嵌入式计算系统中硬件友好的卷积神经网络瓶颈架构

本研究探索如何为嵌入式计算系统设计轻量级 CNN 架构，提出了适用于基于 ZYNQ 硬件平台的 L-Mobilenet 模型。L-Mobilenet 可以很好地适应硬件计算和加速，并且其网络结构受到 Inception-ResnetV1 和 MobilenetV2 等最先进技术的启发，能够有效减少参数和延迟，同时保持推理的准确性。通过在 cifar10 和 cifar100 数据集上进行测量，L-Mobilenet 模型相比 MobileNetV2 速度提升了 3 倍，参数减少了 3.7 倍，同时保持了类似的准确性。相较于 ShufflenetV2，L-Mobilenet 模型速度提升了 2 倍，参数减少了 1.5 倍，同时保持了相同的准确性。实验证明，由于对硬件加速和软硬件协同设计策略的特殊考虑，我们的网络模型能够获得更好的性能。

Mar, 2024