CVPRMar, 2024

PikeLPN: 低精度神经网络的潜在效率问题缓解

TL;DR低精度量化在神经网络优化中得到广泛应用,非量化的逐元素操作主导了低精度模型的推理成本,本文提出了 ACEv2 以更好地衡量量化模型的推理成本和能耗,并介绍了一种名为 QuantNorm 的批归一化层的新型量化技术,以及应用双量化解决量化缩放参数的问题以及引入 Distribution-Heterogeneous Quantization 来解决可分离卷积层中的分布不匹配问题,PikeLPN 在效率和准确性的权衡中实现 Pareto 优化,并比 SOTA 低精度模型提高了 3 倍的效率。