神经网络量化白皮书
提出了一种新的价值感知量化方法,通过将大多数数据应用极低的精度并单独处理一小部分高精度数据以减少总量化误差。该方法可显著减少ResNet-152和Inception-v3的激活器内存成本,并能实现1%以下的top-1精度下降。
Apr, 2018
本文概述了卷积神经网络量化技术,研究发现通过对权重和激活进行逐通道和逐层量化,即使在不支持8位运算的情况下,将权重量化为8位可以将模型大小降低4倍,并且分类的准确率可以达到浮点型卷积神经网络的98%。作者介绍了针对CPU和DSP的量化网络的等待时间基准测试,并观察到相比于CPU上的浮点运算,量化实现的速度提高了2倍至3倍。作者提出了一种通过TensorFlow和TensorFlowLite进行卷积网络量化的工具,并回顾了用于量化训练的最佳实践。作者建议,对于硬件加速和内核优化,应将逐通道量化的权重和逐层量化的激活作为首选量化方案,并提议未来处理器和硬件加速器用于优化推断时支持4、8和16位的精度。
Jun, 2018
本论文提出了一个用于分析全量化训练算法的统计框架,并探讨了梯度量化对其收敛性的影响。作者开发了两个新的梯度量化器,并展示了这些量化器相对于现有的每个张量量化器具有更小的方差。
Oct, 2020
本研究提出了一种针对神经网络量化的方法,该方法通过量化权重来降低计算成本、内存占用和功耗,并促进权重的稀疏性,使用本方法在ImageNet上测试显示准确性的损失很小。
Jan, 2022
该论文提出了一种基于量化的后训练量化流程,无需重新训练即可加速深度神经网络的推理,并得到了在ImageNet上6位的Top-1准确率增加2.2%的结果。
Oct, 2022
提出了一种硬件意识的量化网络参数化方法——量化感知微调(QFT),可以通过联合端对端微调实现一步到位的量化,获得与最优结果相当的4位权重量化结果。
Dec, 2022
量化方法在深度神经网络的高效部署中变得至关重要,深度神经网络经常需要量化以便在计算中使用固定点操作代替浮点操作。本文探讨了一种基于梯度的后训练量化方法(GPTQ),证明了该方法在选择权重、特征增强、校准集等方面具有一定鲁棒性,并提出了设计更高效、可扩展的GPTQ方法的准则,最后还提出了一种基于重要性的混合精度技术,这些准则和技术共同促进了已有的GPTQ方法和网络的性能改进,为设计可扩展且有效的量化方法开辟了新的可能。
Aug, 2023
在这项研究中,我们通过对模型权重和激活函数使用3至8位的浮点数和整数量化方案,比较了浮点数量化和整数量化的适用性,验证了低精度minifloats在一系列精度-准确度权衡中相对于整数量化的有效性,并通过FPGA型号评估结果,表明整数量化通常是优选选择。
Nov, 2023
本论文系统性地概述了大规模神经网络模型量化的原则、挑战和方法,指出了模型规模增长所带来的计算成本和能源开销问题。通过深入探讨量化技术,包括后训练量化(PTQ)和量化感知训练(QAT),论文展示了如何在不显著影响精度的情况下,降低模型规模并提高效率,为可持续和可获取的大规模模型部署提供了重要影响。
Sep, 2024