vMCU: MCU 上的 DNN 推理的协调内存管理和内核优化

May, 2024

vMCU: MCU 上的 DNN 推理的协调内存管理和内核优化

vMCU: Coordinated Memory Management and Kernel Optimization for DNN Inference on MCUs

Size Zheng, Renze Chen, Meng Li, Zihao Ye, Luis Ceze...

TL;DR基于微控制器单元（MCU）的物联网设备为近传感器深度学习模型（DNN）提供超低功耗和无处不在的计算能力。本文提出了一种协同 MCU 上的 DNN 推断的内存管理和内核优化方法，以实现细粒度的内存管理。通过将有限内存虚拟化为一个大型内存池，每个内核将内存池划分为内核特定的段，并在计算 DNN 层时处理段的加载和存储，从而减少内存消耗。实验结果表明，相较于现有技术，所提方法在 MCU 上可以降低 RAM 使用量 12.0% 至 49.5%，能量消耗 20.6% 至 53.0%，对于完整的 DNN 评估，内存瓶颈可以降低 61.5%，从而使更多的模型能够部署在低端 MCU 上。

Abstract

iot devices based on microcontroller units (mcu) provide ultra-low power consumption and ubiquitous computation for near-sensor deep learn

iot devices microcontroller units dnn inference memory management mcu

发现论文，激发创造

MCUNetV2: 面向小型深度学习的高效内存补丁推理

该研究提出了一种基于分块的推理调度方法和神经网络重构技术，通过结合神经网络的设计和推理调度，实现了在微控制器单元上高效、准确的深度学习推理，并改善了已有网络的内存瓶颈问题。

Oct, 2021

SpArSe: 基于稀疏性的卷积神经网络在资源受限微控制器中的架构搜索

本文介绍了如何在内存受限的微控制器单元（MCU）上部署卷积神经网络（CNN），并提出了一种自动设计 CNN 的框架 Sparse Architecture Search，将神经架构搜索与剪枝相结合，通过在 IoT 数据集上的测试，证明了这种方法可以在满足 MCU 内存限制的同时实现更好的性能。

May, 2019

MCUFormer：在内存有限的微控制器上部署视觉 Transformer

本文提出了一种名为 MCUFormer 的硬件算法协同优化方法，用于在内存极为有限的微控制器上部署视觉变换器，实现图像分类任务，通过考虑降维尺寸和补丁分辨率来扩展视觉变换器的搜索空间，并通过操作符集成、补丁嵌入分解和令牌覆写等方法来构建视觉变换器的推理操作库，实验结果表明 MCUFormer 在 STM32F746 微控制器上实现了 320KB 内存的 ImageNet 图像分类任务的 73.62％的 Top-1 准确率。

Oct, 2023

面向资源受限的微控制器的机器学习和推断技术

本文提出了一种适用于微控制器单元 (MCUs) 的无电池 ML 推理和模型个性化管道，使用此管道在深海中进行了鱼类图像识别并比较其准确性，运行时长，功率和能源消耗等优劣，结果表明，在 MCUs 上可以实现 97.78％的精度，达到了无电池 ML 推理的可行性。

May, 2023

基于内存的混合低精度量化，实现微控制器上深度网络推断

本文提出了一种新颖的端到端方法，用于在微控制器上部署低误差的深度神经网络，通过混合低位宽压缩，结合 8、4 或 2 位均匀量化，以整数运算来建模推理图，旨在确定每个激活和权重张量的最小位精度，摆脱了资源受限边缘设备的内存和计算限制，通过一个基于规则的迭代过程，运用量化感知的重训练，将虚假量化图转换为整数推理模型，使用整数通道归一化 (ICN) 图层将该模型部署到只有 2MB 的 FLASH 存储器和 512kB 的 RAM 设备上，并报告了基于 STM32H7 微控制器的混合精度 MobilenetV1 家族网络的延迟 - 精度评估结果，实验结果表明，相比于之前发表的微控制器 8 位实现，Top1 精度提高了 8％，达到了 68％。

May, 2019

MCUNet: 物联网设备上的小型深度学习

本研究提出了 MCUNet 框架，该框架共同设计了高效的神经结构（TinyNAS）和轻量级推断引擎（TinyEngine），使得可以在微控制器上进行 ImageNet 规模的推理。

Jul, 2020

基于 TrustZone 启用的消费者物联网设备上的高效内存和安全的 DNN 推理

边缘智能允许资源密集型深度神经网络进行推理，而无需传输原始数据，解决了消费者物联网设备中的数据隐私问题。我们提出了一种在 TrustZone 中进行先进模型部署的新方法，确保在模型推理过程中综合保护隐私。我们设计了一种内存高效的管理方法，支持内存密集型推理，通过调整内存优先级，有效地减少内存泄漏风险和内存冲突，并在受信任的操作系统中进行了 32 行代码的修改。此外，我们利用了两个小型库：S-Tinylib（2,538 行代码），一个小型深度学习库，和 Tinylibm（827 行代码），一个小型数学库，以支持在受信任执行环境中的高效推理。我们在 Raspberry Pi 3B + 上实现了一个原型，并使用三个知名的轻量级 DNN 模型进行了评估。实验结果表明，与在 TEE 中使用非内存优化方法相比，我们的设计能够将推理速度提高 3.13 倍，并降低功耗超过 66.5%。

Mar, 2024

深度神经网络的降低精度浮点数优化：在微控制器上进行设备端学习

本文提出了一种降低 MCU 类设备上计算量的新型优化技术，使用支持矢量化 16 位浮点 SIMD 操作的 RISC-V RV32 架构，加速了前向和后向传递算法，其计算效率比现有 ODL 软件框架快两个数量级，并且在持续学习设置中比以前的 FP32 并行实现快 1.6 倍。

May, 2023

MicroNets: 用于在商用微控制器上部署 TinyML 应用的神经网络架构

本文介绍了机器学习在资源受限的微控制器上的应用，使用神经结构搜索算法来设计满足内存、延迟和能耗限制的模型，并通过可微分神经结构搜索算法搜索出了具有低内存使用和低操作计数的 MicroNet 模型，验证该文述方法在视觉唤醒词、音频关键词检测和异常检测等领域的优越性。

Oct, 2020

FANN-on-MCU: 一个边缘计算中针对能效的神经网络推断的开源工具集

本文介绍了一个名为 FANN-on-MCU 的开源工具包，该工具基于快速人工神经网络（FANN）库，可以在基于 ARM Cortex-M 系列和新的基于 RISC-V 的 Parallel Ultra-Low-Power (PULP) 平台上运行轻量级、高效率的神经网络，用于进行边缘计算。该工具包可以生成针对低功耗微控制器执行的代码，并提供了在不同平台上经过实验证明的性能评估，通过实验结果表明其具有低延迟和低功耗等优势。

Nov, 2019