CMSIS-NN: 为 Arm Cortex-M CPU 提供高效神经网络核心

Jan, 2018

CMSIS-NN: 为 Arm Cortex-M CPU 提供高效神经网络核心

CMSIS-NN: Efficient Neural Network Kernels for Arm Cortex-M CPUs

Liangzhen Lai, Naveen Suda, Vikas Chandra

TL;DR介绍了 CMSIS-NN，这是一种针对智能 IoT 边缘设备的 Arm Cortex-M 处理器开发的高效内核，可实现神经网络性能最大化和内存占用最小化，推断时 CMSIS-NN 内核基于神经网络的速度 / 吞吐量的改进为 4.6 倍，能效提高了 4.9 倍。

Abstract

deep neural networks are becoming increasingly popular in always-on iot edge devices performing data analytics right at the source, reducing latency as well as energy consumption for data communication. This pape

deep neural networks iot cmsis-nn arm cortex-m energy efficiency

发现论文，激发创造

FANN-on-MCU: 一个边缘计算中针对能效的神经网络推断的开源工具集

本文介绍了一个名为 FANN-on-MCU 的开源工具包，该工具基于快速人工神经网络（FANN）库，可以在基于 ARM Cortex-M 系列和新的基于 RISC-V 的 Parallel Ultra-Low-Power (PULP) 平台上运行轻量级、高效率的神经网络，用于进行边缘计算。该工具包可以生成针对低功耗微控制器执行的代码，并提供了在不同平台上经过实验证明的性能评估，通过实验结果表明其具有低延迟和低功耗等优势。

Nov, 2019

在嵌入式 ARM big.LITTLE 多核处理器上进行高吞吐量 CNN 推理

本文介绍了一种名为 Pipe-it 的替代框架，它采用流水线设计将卷积层分布在多个簇中，从而限制各自卷积内核的并行化，以提高 IoT Edge 智能的推理效率。使用性能预测模型利用卷积层描述符预测各允许的内核配置（类型和数量）上每个卷积层的执行时间，并利用有效的设计空间探索算法来创建平衡的管道，Pipe-it 平均提高了 39％的吞吐量。

Mar, 2019

MCUNet: 物联网设备上的小型深度学习

本研究提出了 MCUNet 框架，该框架共同设计了高效的神经结构（TinyNAS）和轻量级推断引擎（TinyEngine），使得可以在微控制器上进行 ImageNet 规模的推理。

Jul, 2020

SpArSe: 基于稀疏性的卷积神经网络在资源受限微控制器中的架构搜索

本文介绍了如何在内存受限的微控制器单元（MCU）上部署卷积神经网络（CNN），并提出了一种自动设计 CNN 的框架 Sparse Architecture Search，将神经架构搜索与剪枝相结合，通过在 IoT 数据集上的测试，证明了这种方法可以在满足 MCU 内存限制的同时实现更好的性能。

May, 2019

vMCU: MCU 上的 DNN 推理的协调内存管理和内核优化

基于微控制器单元（MCU）的物联网设备为近传感器深度学习模型（DNN）提供超低功耗和无处不在的计算能力。本文提出了一种协同 MCU 上的 DNN 推断的内存管理和内核优化方法，以实现细粒度的内存管理。通过将有限内存虚拟化为一个大型内存池，每个内核将内存池划分为内核特定的段，并在计算 DNN 层时处理段的加载和存储，从而减少内存消耗。实验结果表明，相较于现有技术，所提方法在 MCU 上可以降低 RAM 使用量 12.0% 至 49.5%，能量消耗 20.6% 至 53.0%，对于完整的 DNN 评估，内存瓶颈可以降低 61.5%，从而使更多的模型能够部署在低端 MCU 上。

May, 2024

深度神经网络在微控制器上的量化与部署

本文介绍了一个新的深度神经网络量化和部署的框架，MicroAI，并研究了在低功耗 32 位微控制器上应用该框架的优化方法和效果。通过对三个不同数据集 (UCI-HAR、Spoken MNIST 和 GTSRB) 的评估，与两种已有的嵌入式推理引擎 (TensorFlow Lite for Microcontrollers 和 STM32CubeAI) 的比较和在 ARM Cortex-M4F 微控制器 (Ambiq Apollo3 和 STM32L452RE) 上的验证，证明了 MicroAI 具有更好的内存和功耗效率。

May, 2021

MicroNets: 用于在商用微控制器上部署 TinyML 应用的神经网络架构

本文介绍了机器学习在资源受限的微控制器上的应用，使用神经结构搜索算法来设计满足内存、延迟和能耗限制的模型，并通过可微分神经结构搜索算法搜索出了具有低内存使用和低操作计数的 MicroNet 模型，验证该文述方法在视觉唤醒词、音频关键词检测和异常检测等领域的优越性。

Oct, 2020

优化 CPU 上 CNN 模型的推理

本研究提出了一种名为 'NeoCPU' 的综合方法，通过对模板进行优化实现卷积神经网络模型的 CPU 推理，而不是依赖第三方库来实现模型图的单独操作优化，从而通过操作级别和图级别同时优化来进一步提高性能。实验结果表明，与当前各种流行 CPU 上的最先进实现相比，NeoCPU 的卷积神经网络模型推理延迟可降低 3.45 倍。

Sep, 2018

小型机器学习的高效神经网络：综述

深入分析了高效神经网络和深度学习模型在超低功耗微控制器上部署的细微机器学习（TinyML）应用的进展，并指出了未来的研究方向。

Nov, 2023

XNOR 神经引擎：一种用于 21.6 fJ/op 的硬件加速器 IP，用于二进制神经网络推理

本文介绍了一种以 XNOR 神经引擎为核心的全数字可配置硬件加速器 IP，它能够实现卷积和稠密层的全自动计算，还能够与 MCU 的内核协同工作，实现更复杂的行为。该系统的能量成本仅为每个二进制操作 21.6fJ，足够执行最先进的 BNN 拓扑结构。

Jul, 2018