基于价值驱动的混合精度量化在微控制器上进行基于补丁的推理

Jan, 2024

基于价值驱动的混合精度量化在微控制器上进行基于补丁的推理

Value-Driven Mixed-Precision Quantization for Patch-Based Inference on Microcontrollers

Wei Tao, Shenglin He, Kai Lu, Xiaoyang Qu, Guokuan Li...

TL;DR提出了一种名为 QuantMCU 的新的基于补丁的推断方法，利用价值驱动的混合精度量化来减少冗余计算。通过利用 Value-Driven Patch Classification（VDPC）和 Value-Driven Quantization Search（VDQS）来维持模型的准确性并降低搜索时间。实验结果表明，QuantMCU 减少了 2.2 倍的计算量，同时与最先进的基于补丁的推断方法相比保持了可比的模型准确性。

Abstract

Deploying neural networks on microcontroller units (MCUs) presents substantial challenges due to their constrained computation and memory resources. Previous researches have explored →

neural networks microcontroller units patch-based inference mixed-precision quantization quantmcu

发现论文，激发创造

基于内存的混合低精度量化，实现微控制器上深度网络推断

本文提出了一种新颖的端到端方法，用于在微控制器上部署低误差的深度神经网络，通过混合低位宽压缩，结合 8、4 或 2 位均匀量化，以整数运算来建模推理图，旨在确定每个激活和权重张量的最小位精度，摆脱了资源受限边缘设备的内存和计算限制，通过一个基于规则的迭代过程，运用量化感知的重训练，将虚假量化图转换为整数推理模型，使用整数通道归一化 (ICN) 图层将该模型部署到只有 2MB 的 FLASH 存储器和 512kB 的 RAM 设备上，并报告了基于 STM32H7 微控制器的混合精度 MobilenetV1 家族网络的延迟 - 精度评估结果，实验结果表明，相比于之前发表的微控制器 8 位实现，Top1 精度提高了 8％，达到了 68％。

May, 2019

MCUNetV2: 面向小型深度学习的高效内存补丁推理

该研究提出了一种基于分块的推理调度方法和神经网络重构技术，通过结合神经网络的设计和推理调度，实现了在微控制器单元上高效、准确的深度学习推理，并改善了已有网络的内存瓶颈问题。

Oct, 2021

Vision Transformer 的补丁混合精度量化

本文提出了一种基于 patch 的混合精度量化方法，用于 ViTs 神经网络的高效推理，通过引入轻量级全局度量并采用帕累托前沿法自动分配最佳的位精度来减少搜索成本。实验证明这种方法大大减少了搜索成本，使混合精度量化应用于 ViTs 变得容易。

May, 2023

基于混合强化学习的数据质量感知混合精度量化

本研究提出了一种名为 DQMQ 的新型混合精度量化框架，可动态地适应不同数据质量，通过学习一个决策规则，它被建模为一种混合强化学习任务，该任务结合了基于模型的策略优化和监督量化训练。通过在混合质量的图像数据集上进行训练，DQMQ 可以在面对不均匀输入质量时隐式地选择每个层的最适宜比特宽度，在各种基准数据集和网络上的大量实验表明，DQMQ 比现有的固定 / 混合精度量化方法更为优越。

Feb, 2023

自由比特：边缘上混合精度量化神经网络的延迟优化

该论文提出了一种混合精度搜索方法，该方法通过硬件无关的可微分搜索算法和硬件感知优化算法来寻找特定硬件目标上的优化后的混合精度配置，以减少模型大小、延迟并保持统计准确性，该方法在 MobileNetV1 和 MobileNetV2 上进行了评估，在具有不同硬件特性的多核 RISC-V 微控制器平台上展示了与 8 位模型相比高达 28.6% 的端到端延迟降低，在没有对子字节算术支持的系统上也能实现加速，同时在代表延迟的减少二进制运算次数上，我们的方法也表现出优越性。

Jul, 2023

深度神经网络在微控制器上的量化与部署

本文介绍了一个新的深度神经网络量化和部署的框架，MicroAI，并研究了在低功耗 32 位微控制器上应用该框架的优化方法和效果。通过对三个不同数据集 (UCI-HAR、Spoken MNIST 和 GTSRB) 的评估，与两种已有的嵌入式推理引擎 (TensorFlow Lite for Microcontrollers 和 STM32CubeAI) 的比较和在 ARM Cortex-M4F 微控制器 (Ambiq Apollo3 和 STM32L452RE) 上的验证，证明了 MicroAI 具有更好的内存和功耗效率。

May, 2021

基于梯度的神经网络芯片上每权重混合精度量化

通过高精度量化训练方法，减少模型大小和推理速度，提高 FPGA 部署的低延迟和低功耗神经网络的资源利用率，同时保持准确性。

May, 2024

SDQ：带混合精度的随机可微量化

本文提出了一种新的随机可微量化（SDQ）方法，利用不同层和模块的优化比特宽度来自动学习混合精度量化策略，并利用熵感知的分 bin 正则化和知识蒸馏对网络进行训练，经过在不同硬件和数据集上广泛的评估，SDQ 在较低的比特宽度下优于所有最先进的混合或单精度量化，甚至优于各种 ResNet 和 MobileNet 家族的全精度对应物，展示了我们的方法的有效性和优越性。

Jun, 2022

基于低成本代理的混合精度自适应量化

该论文提出了一种名为 LCPAQ 的新型模型量化方法，其中包含三个关键模块。在考虑硬件限制的基础上设计了硬件感知模块，开发了自适应混合精度量化模块来评估量化灵敏度，并使用希狄矩阵和 Pareto 边界技术进行整数线性规划来微调不同层的量化。然后，低成本代理神经架构搜索模块高效探索理想的量化超参数。在 ImageNet 上的实验证明，提出的 LCPAQ 在量化精度方面达到了与现有混合精度模型相当甚至更好的水平。值得注意的是，与现有方法相比，LCPAQ 的搜索时间减少了 1/200，从而为资源有限设备的实际量化使用提供了捷径。

Feb, 2024

OHQ: 在芯片上的硬件感知量化

本文提出了一种在芯片上进行硬件感知的混合精度量化（OHQ）框架，通过构建在芯片上的量化感知管道（OQA）和基于掩码的量化估计（MQE）技术，实现了从硬件感知的混合精度量化。通过合成网络和硬件的见解，通过线性规划获得了优化的位宽配置。OHQ 在完全无需额外的计算设备和数据访问的情况下，对各种体系结构和压缩比率进行了量化推理，为 ResNet-18 和 MobileNetV3 分别实现了 70％和 73％的准确率，并且相较于部署中的 INT8，减少了 15～30％的延迟。

Sep, 2023