May, 2019
基于内存的混合低精度量化,实现微控制器上深度网络推断
Memory-Driven Mixed Low Precision Quantization For Enabling Deep Network
Inference On Microcontrollers
TL;DR本文提出了一种新颖的端到端方法,用于在微控制器上部署低误差的深度神经网络,通过混合低位宽压缩,结合8、4或2位均匀量化,以整数运算来建模推理图,旨在确定每个激活和权重张量的最小位精度,摆脱了资源受限边缘设备的内存和计算限制,通过一个基于规则的迭代过程,运用量化感知的重训练,将虚假量化图转换为整数推理模型,使用整数通道归一化(ICN)图层将该模型部署到只有2MB的FLASH存储器和512kB的RAM设备上,并报告了基于 STM32H7 微控制器的混合精度 MobilenetV1 家族网络的延迟-精度评估结果,实验结果表明,相比于之前发表的微控制器8位实现,Top1 精度提高了8%,达到了68%。