Aug, 2023

A2Q: 累加器感知量化与溢出保护

TL;DR我们提出了一种适用于训练量化神经网络(QNNs)以避免在推断过程中使用低精度累加器时的溢出问题的新颖的权重量化方法 ——accumulator-aware quantization(A2Q)。A2Q 引入了一种受权重归一化启发的独特公式,根据我们导出的累加器比特宽度限制来约束模型权重的 L1 范数。因此,在训练低精度累加器的 QNNs 时,A2Q 还本质上促进了非结构化权重稀疏性以保证溢出避免。我们将该方法应用于基于深度学习的计算机视觉任务,以表明 A2Q 可以在保持与浮点基准相竞争的模型准确性的同时,训练适用于低精度累加器的 QNNs。在我们的评估中,我们考虑了 A2Q 对通用平台和可编程硬件的影响。然而,我们主要针对在 FPGAs 上部署模型,因为它们可以被编程以充分利用定制累加器比特宽度。我们的实验表明,累加器比特宽度显著影响基于 FPGA 的加速器的资源效率。在我们的基准测试中,A2Q 相比于 32 位累加器对应物平均提供高达 2.3 倍的资源利用率降低,同时保持 99.2% 的浮点模型准确性。