MCUNetV2: 面向小型深度学习的高效内存补丁推理
本研究提出了 MCUNet 框架,该框架共同设计了高效的神经结构(TinyNAS)和轻量级推断引擎(TinyEngine),使得可以在微控制器上进行 ImageNet 规模的推理。
Jul, 2020
基于微控制器单元(MCU)的物联网设备为近传感器深度学习模型(DNN)提供超低功耗和无处不在的计算能力。本文提出了一种协同 MCU 上的 DNN 推断的内存管理和内核优化方法,以实现细粒度的内存管理。通过将有限内存虚拟化为一个大型内存池,每个内核将内存池划分为内核特定的段,并在计算 DNN 层时处理段的加载和存储,从而减少内存消耗。实验结果表明,相较于现有技术,所提方法在 MCU 上可以降低 RAM 使用量 12.0% 至 49.5%,能量消耗 20.6% 至 53.0%,对于完整的 DNN 评估,内存瓶颈可以降低 61.5%,从而使更多的模型能够部署在低端 MCU 上。
May, 2024
本文提出了一种名为 MCUFormer 的硬件算法协同优化方法,用于在内存极为有限的微控制器上部署视觉变换器,实现图像分类任务,通过考虑降维尺寸和补丁分辨率来扩展视觉变换器的搜索空间,并通过操作符集成、补丁嵌入分解和令牌覆写等方法来构建视觉变换器的推理操作库,实验结果表明 MCUFormer 在 STM32F746 微控制器上实现了 320KB 内存的 ImageNet 图像分类任务的 73.62%的 Top-1 准确率。
Oct, 2023
本文提出了一种新颖的端到端方法,用于在微控制器上部署低误差的深度神经网络,通过混合低位宽压缩,结合 8、4 或 2 位均匀量化,以整数运算来建模推理图,旨在确定每个激活和权重张量的最小位精度,摆脱了资源受限边缘设备的内存和计算限制,通过一个基于规则的迭代过程,运用量化感知的重训练,将虚假量化图转换为整数推理模型,使用整数通道归一化 (ICN) 图层将该模型部署到只有 2MB 的 FLASH 存储器和 512kB 的 RAM 设备上,并报告了基于 STM32H7 微控制器的混合精度 MobilenetV1 家族网络的延迟 - 精度评估结果,实验结果表明,相比于之前发表的微控制器 8 位实现,Top1 精度提高了 8%,达到了 68%。
May, 2019
本文介绍了如何在内存受限的微控制器单元(MCU)上部署卷积神经网络(CNN),并提出了一种自动设计 CNN 的框架 Sparse Architecture Search,将神经架构搜索与剪枝相结合,通过在 IoT 数据集上的测试,证明了这种方法可以在满足 MCU 内存限制的同时实现更好的性能。
May, 2019
提出了一种名为 QuantMCU 的新的基于补丁的推断方法,利用价值驱动的混合精度量化来减少冗余计算。通过利用 Value-Driven Patch Classification(VDPC)和 Value-Driven Quantization Search(VDQS)来维持模型的准确性并降低搜索时间。实验结果表明,QuantMCU 减少了 2.2 倍的计算量,同时与最先进的基于补丁的推断方法相比保持了可比的模型准确性。
Jan, 2024
本文介绍了机器学习在资源受限的微控制器上的应用,使用神经结构搜索算法来设计满足内存、延迟和能耗限制的模型,并通过可微分神经结构搜索算法搜索出了具有低内存使用和低操作计数的 MicroNet 模型,验证该文述方法在视觉唤醒词、音频关键词检测和异常检测等领域的优越性。
Oct, 2020
本研究提出了一种通用和统一的框架,通过多级现场生成机制和混合精度基准,实现了高分辨率参数的即时恢复,从而以最小的硬件开销直接将昂贵的内存交易转换为超快的芯片内计算,提高了内存效率 10-20 倍。
Aug, 2021
本研究提出了一种在商业微控制器上对 Transformer 模型进行端到端部署的优化框架,通过优化库和新的推理调度方案,在多个 MCU 平台上实现了更低的延迟和能量消耗。
Apr, 2024
我们提出了一种新型 SNN MLP 架构,使用批归一化保留 MFI 兼容性,并引入针对强化本地特征提取能力的尖峰编码层,有效地结合全局感受野和本地特征提取进行综合基于脉冲的计算,实现了在 ImageNet-1K 数据集上具有 66.39%的 Top-1 准确度,而不依赖预训练或复杂的 SNN 培训技术。
Jun, 2023