基于内存的混合低精度量化，实现微控制器上深度网络推断

May, 2019

基于内存的混合低精度量化，实现微控制器上深度网络推断

Memory-Driven Mixed Low Precision Quantization For Enabling Deep Network Inference On Microcontrollers

Manuele Rusci, Alessandro Capotondi, Luca Benini

TL;DR本文提出了一种新颖的端到端方法，用于在微控制器上部署低误差的深度神经网络，通过混合低位宽压缩，结合8、4或2位均匀量化，以整数运算来建模推理图，旨在确定每个激活和权重张量的最小位精度，摆脱了资源受限边缘设备的内存和计算限制，通过一个基于规则的迭代过程，运用量化感知的重训练，将虚假量化图转换为整数推理模型，使用整数通道归一化(ICN)图层将该模型部署到只有2MB的FLASH存储器和512kB的RAM设备上，并报告了基于 STM32H7 微控制器的混合精度 MobilenetV1 家族网络的延迟-精度评估结果，实验结果表明，相比于之前发表的微控制器8位实现，Top1 精度提高了8％，达到了68％。

Abstract

This paper presents a novel end-to-end methodology for enabling the deployment of low-error deep networks on microcontrollers. To fit the memory and computational limitations of resource-constrained edge-devices,

发现论文，激发创造

使用动态定点实现混合低精度深度学习推理

本研究提出了一种基于聚类的量化方法，将预先训练好的全精度权重转换为三元权重，并将激活约束为8位，从而实现小于8位完整整数推理管道。此方法使用较小的N个过滤器的簇，并使用共同缩放因子来最小化量化损失，同时最大化三元操作的数量。在ResNet-101上使用N=4的簇大小，可以在替换了85％的所有乘法运算为8位累加之后，实现71.8％的TOP-1准确度。使用4位权重的相同方法实现76.3％，相对于全精度结果的误差不到2％。同时，本研究还探讨了集群大小对性能和准确性的影响。 N=64的较大集群大小可以使用三元操作替换98％的乘法，但会显著降低准确性，需要在更低的精度下对参数进行微调和网络重新训练。为了解决这个问题，我们还使用全精度权重预初始化网络，通过8位激活和三元权重训练了低精度ResNet-50，在额外的4个epoch内实现了68.9％的TOP-1准确度。最终量化模型可以在完整的8位计算管道上运行，相对于基线全精度模型具有潜在的16倍性能提升。

Jan, 2017

神经网络的量化和训练，用于高效的整数运算推理

本文提出了一种量化方案，通过整数运算进行推断，以提高在移动设备上的效率，并设计了一种训练程序来维护量化后的模型精度。该方案在MobileNets模型中展现了显著的改进，在ImageNet分类和COCO检测等任务上获得了良好的结果。

Dec, 2017

神经网络的低位量化以提高推理效率

本文提出了一种在有限硬件资源上实现预训练模型的4位整数（INT4）量化的优化方法，将线性量化任务形式化为最小均方误差（MMSE）问题，并对网络的每一层进行限制MSE问题的优化以及多个量化张量的硬件感知分区，除少量精度降低外，在多种网络架构上实现最先进的结果。

Feb, 2019

使用偏差来对抗量化偏差

本文探讨了移动设备上深度神经网络低精度表示的问题，提出了一个简单的方法通过在通道的参数中添加一个常数来解决量化引起的移位问题，从而实现了对MobileNet架构的优化。

Jun, 2019

Bit-Mixer: 运行时位宽选择的混合精度网络

本文提出了 Bit-Mixer 方法，为高度精准预测训练多量化层的混合精度网络，在测试期间任何层都可以改变自己的比特宽度，并通过“转换批量归一化”和3阶段优化，展示了网络的训练过程以及具有理想的灵活性属性的混合精度网络可供设备部署，不会影响推断准确度。

Mar, 2021

深度神经网络在微控制器上的量化与部署

本文介绍了一个新的深度神经网络量化和部署的框架，MicroAI，并研究了在低功耗32位微控制器上应用该框架的优化方法和效果。通过对三个不同数据集(UCI-HAR、Spoken MNIST和GTSRB)的评估，与两种已有的嵌入式推理引擎(TensorFlow Lite for Microcontrollers和STM32CubeAI)的比较和在ARM Cortex-M4F微控制器(Ambiq Apollo3和STM32L452RE)上的验证，证明了MicroAI具有更好的内存和功耗效率。

May, 2021

自由比特：边缘上混合精度量化神经网络的延迟优化

该论文提出了一种混合精度搜索方法，该方法通过硬件无关的可微分搜索算法和硬件感知优化算法来寻找特定硬件目标上的优化后的混合精度配置，以减少模型大小、延迟并保持统计准确性，该方法在MobileNetV1和MobileNetV2上进行了评估，在具有不同硬件特性的多核RISC-V微控制器平台上展示了与8位模型相比高达28.6%的端到端延迟降低，在没有对子字节算术支持的系统上也能实现加速，同时在代表延迟的减少二进制运算次数上，我们的方法也表现出优越性。

Jul, 2023

OHQ: 在芯片上的硬件感知量化

本文提出了一种在芯片上进行硬件感知的混合精度量化（OHQ）框架，通过构建在芯片上的量化感知管道（OQA）和基于掩码的量化估计（MQE）技术，实现了从硬件感知的混合精度量化。通过合成网络和硬件的见解，通过线性规划获得了优化的位宽配置。OHQ在完全无需额外的计算设备和数据访问的情况下，对各种体系结构和压缩比率进行了量化推理，为ResNet-18和MobileNetV3分别实现了70％和73％的准确率，并且相较于部署中的INT8，减少了15～30％的延迟。

Sep, 2023

联合修剪与通道混合精度量化用于高效的深度神经网络

通过轻量级的基于梯度的搜索方法和硬件感知的方式，结合稀疏化和混合精度量化的优化技术，在减小延迟和内存占用方面获得Pareto最优的准确性与成本（即延迟或内存）之间的深度神经网络。

Jul, 2024

BF-IMNA：一种比特流动内存神经架构用于神经网络加速

本研究针对混合精度神经网络在运行时缺乏灵活支持的问题，提出了一种名为BF-IMNA的比特流动内存计算加速器，能够在不进行硬件重新配置的情况下支持静态和动态混合精度。实验结果表明，在不同的技术、混合精度配置和供电电压下，BF-IMNA相比于当前的主流加速器在能效和吞吐量上有显著提升，能效提高20%和吞吐量提高2%。

Nov, 2024