CMSIS-NN: 为 Arm Cortex-M CPU 提供高效神经网络核心
本文介绍了一个名为 FANN-on-MCU 的开源工具包,该工具基于快速人工神经网络(FANN)库,可以在基于 ARM Cortex-M 系列和新的基于 RISC-V 的 Parallel Ultra-Low-Power (PULP) 平台上运行轻量级、高效率的神经网络,用于进行边缘计算。该工具包可以生成针对低功耗微控制器执行的代码,并提供了在不同平台上经过实验证明的性能评估,通过实验结果表明其具有低延迟和低功耗等优势。
Nov, 2019
本文介绍了一种名为 Pipe-it 的替代框架,它采用流水线设计将卷积层分布在多个簇中,从而限制各自卷积内核的并行化,以提高 IoT Edge 智能的推理效率。使用性能预测模型利用卷积层描述符预测各允许的内核配置(类型和数量)上每个卷积层的执行时间,并利用有效的设计空间探索算法来创建平衡的管道,Pipe-it 平均提高了 39%的吞吐量。
Mar, 2019
本研究提出了 MCUNet 框架,该框架共同设计了高效的神经结构(TinyNAS)和轻量级推断引擎(TinyEngine),使得可以在微控制器上进行 ImageNet 规模的推理。
Jul, 2020
本文介绍了如何在内存受限的微控制器单元(MCU)上部署卷积神经网络(CNN),并提出了一种自动设计 CNN 的框架 Sparse Architecture Search,将神经架构搜索与剪枝相结合,通过在 IoT 数据集上的测试,证明了这种方法可以在满足 MCU 内存限制的同时实现更好的性能。
May, 2019
基于微控制器单元(MCU)的物联网设备为近传感器深度学习模型(DNN)提供超低功耗和无处不在的计算能力。本文提出了一种协同 MCU 上的 DNN 推断的内存管理和内核优化方法,以实现细粒度的内存管理。通过将有限内存虚拟化为一个大型内存池,每个内核将内存池划分为内核特定的段,并在计算 DNN 层时处理段的加载和存储,从而减少内存消耗。实验结果表明,相较于现有技术,所提方法在 MCU 上可以降低 RAM 使用量 12.0% 至 49.5%,能量消耗 20.6% 至 53.0%,对于完整的 DNN 评估,内存瓶颈可以降低 61.5%,从而使更多的模型能够部署在低端 MCU 上。
May, 2024
本文介绍了一个新的深度神经网络量化和部署的框架,MicroAI,并研究了在低功耗 32 位微控制器上应用该框架的优化方法和效果。通过对三个不同数据集 (UCI-HAR、Spoken MNIST 和 GTSRB) 的评估,与两种已有的嵌入式推理引擎 (TensorFlow Lite for Microcontrollers 和 STM32CubeAI) 的比较和在 ARM Cortex-M4F 微控制器 (Ambiq Apollo3 和 STM32L452RE) 上的验证,证明了 MicroAI 具有更好的内存和功耗效率。
May, 2021
本文介绍了机器学习在资源受限的微控制器上的应用,使用神经结构搜索算法来设计满足内存、延迟和能耗限制的模型,并通过可微分神经结构搜索算法搜索出了具有低内存使用和低操作计数的 MicroNet 模型,验证该文述方法在视觉唤醒词、音频关键词检测和异常检测等领域的优越性。
Oct, 2020
本研究提出了一种名为 'NeoCPU' 的综合方法,通过对模板进行优化实现卷积神经网络模型的 CPU 推理,而不是依赖第三方库来实现模型图的单独操作优化,从而通过操作级别和图级别同时优化来进一步提高性能。实验结果表明,与当前各种流行 CPU 上的最先进实现相比,NeoCPU 的卷积神经网络模型推理延迟可降低 3.45 倍。
Sep, 2018
本文介绍了一种以 XNOR 神经引擎为核心的全数字可配置硬件加速器 IP,它能够实现卷积和稠密层的全自动计算,还能够与 MCU 的内核协同工作,实现更复杂的行为。该系统的能量成本仅为每个二进制操作 21.6fJ,足够执行最先进的 BNN 拓扑结构。
Jul, 2018