A2Q: 累加器感知量化与溢出保护

Aug, 2023

A2Q: Accumulator-Aware Quantization with Guaranteed Overflow Avoidance

Ian Colbert, Alessandro Pappalardo, Jakoba Petri-Koenig

TL;DR我们提出了一种适用于训练量化神经网络（QNNs）以避免在推断过程中使用低精度累加器时的溢出问题的新颖的权重量化方法——accumulator-aware quantization（A2Q）。A2Q引入了一种受权重归一化启发的独特公式，根据我们导出的累加器比特宽度限制来约束模型权重的L1范数。因此，在训练低精度累加器的QNNs时，A2Q还本质上促进了非结构化权重稀疏性以保证溢出避免。我们将该方法应用于基于深度学习的计算机视觉任务，以表明A2Q可以在保持与浮点基准相竞争的模型准确性的同时，训练适用于低精度累加器的QNNs。在我们的评估中，我们考虑了A2Q对通用平台和可编程硬件的影响。然而，我们主要针对在FPGAs上部署模型，因为它们可以被编程以充分利用定制累加器比特宽度。我们的实验表明，累加器比特宽度显著影响基于FPGA的加速器的资源效率。在我们的基准测试中，A2Q相比于32位累加器对应物平均提供高达2.3倍的资源利用率降低，同时保持99.2%的浮点模型准确性。

Abstract

We present accumulator-aware quantization (A2Q), a novel weight quantization method designed to train quantized neural networks (QNNs) to avoid overflow when using low-precision accumulators during inference. A2Q