Jul, 2023
自由比特:边缘上混合精度量化神经网络的延迟优化
Free Bits: Latency Optimization of Mixed-Precision Quantized Neural
Networks on the Edge
TL;DR该论文提出了一种混合精度搜索方法,该方法通过硬件无关的可微分搜索算法和硬件感知优化算法来寻找特定硬件目标上的优化后的混合精度配置,以减少模型大小、延迟并保持统计准确性,该方法在MobileNetV1和MobileNetV2上进行了评估,在具有不同硬件特性的多核RISC-V微控制器平台上展示了与8位模型相比高达28.6%的端到端延迟降低,在没有对子字节算术支持的系统上也能实现加速,同时在代表延迟的减少二进制运算次数上,我们的方法也表现出优越性。