神经网络的量化和训练,用于高效的整数运算推理
本论文介绍了一种将QNN推理操作转换为整数推理操作的流程,以及一些基于比特串处理技术的方法,以常见的按位操作有效地部署QNN。作者展示了QNN在移动CPU上的潜力,并提供了一个比特串矩阵乘法库。
Sep, 2017
本文提出了一种量化方案,通过在参考浮点模型上校准而不是重新训练来确定量化方案参数,从而实现了基于更高效的算术进行推理,并且在量化后的结果中,终端到终端精度可与基准模型相当。
May, 2018
本文概述了卷积神经网络量化技术,研究发现通过对权重和激活进行逐通道和逐层量化,即使在不支持8位运算的情况下,将权重量化为8位可以将模型大小降低4倍,并且分类的准确率可以达到浮点型卷积神经网络的98%。作者介绍了针对CPU和DSP的量化网络的等待时间基准测试,并观察到相比于CPU上的浮点运算,量化实现的速度提高了2倍至3倍。作者提出了一种通过TensorFlow和TensorFlowLite进行卷积网络量化的工具,并回顾了用于量化训练的最佳实践。作者建议,对于硬件加速和内核优化,应将逐通道量化的权重和逐层量化的激活作为首选量化方案,并提议未来处理器和硬件加速器用于优化推断时支持4、8和16位的精度。
Jun, 2018
使用标准反向传播和梯度下降法提出了一种对均匀对称量化器进行训练阈值(TQT)的方法,能够以8位量化重新训练不到5次即可在MobileNets等传统难度网络上实现接近浮点精度的分类性能。
Mar, 2019
本文提出了一种新颖的端到端方法,用于在微控制器上部署低误差的深度神经网络,通过混合低位宽压缩,结合8、4或2位均匀量化,以整数运算来建模推理图,旨在确定每个激活和权重张量的最小位精度,摆脱了资源受限边缘设备的内存和计算限制,通过一个基于规则的迭代过程,运用量化感知的重训练,将虚假量化图转换为整数推理模型,使用整数通道归一化(ICN)图层将该模型部署到只有2MB的FLASH存储器和512kB的RAM设备上,并报告了基于 STM32H7 微控制器的混合精度 MobilenetV1 家族网络的延迟-精度评估结果,实验结果表明,相比于之前发表的微控制器8位实现,Top1 精度提高了8%,达到了68%。
May, 2019
本文提出了一种名为WAGEUBN的统一完整量化框架,可将神经网络的数据路径(包括所有数据类型W,A,G,E,U和BN)中所有数据转换为低位整数以实现全面量化和在线训练,并在ImageNet数据集上获得了可比较的精度,展示了在大规模DNNs中8位INT级别的完整量化的功能性。
Sep, 2019
本文介绍了量化技术如何减小深度神经网络的规模,提高推理延迟和吞吐量,并评估它们在各种应用领域的不同神经网络模型上的选择,包括视觉、语音和语言等方面,并重点介绍适用于高吞吐量整数数学流水线处理器加速的量化技术。同时,还提供了一种8位量化工作流,能够在所有研究的网络上保持1%的浮点基线精度,包括更难量化的模型,如MobileNets和BERT-large。
Apr, 2020
本文研究深度神经网络量化的问题,针对不同的架构提出了一些不同的替代方案,并在ImageNet数据集上进行了图像分类实验,结果表明后量化准确率与浮点数版本在0.7%以内。
Nov, 2020
本文旨在综述深度神经网络计算中数值量化的方法和优缺点,囊括了使用固定整数值的优点、及降低4x到8x等现实应用中的实际结果,以及占用更少的内存和降低延迟的潜力。
Mar, 2021
量化用整数运算取代浮点算术在深度神经网络模型中,从而在设备上提供更高效的推断,降低功耗和内存需求。本文提出了一个框架用于正式验证量化神经网络的特性。我们的基准技术基于整数线性规划,保证了完备性和正确性。然后我们展示了如何利用梯度启发式搜索方法和边界传播技术来提高效率。我们通过在PyTorch中量化感知网络来评估我们的方法。结果表明,与现有技术相比,我们能够以更好的可扩展性和效率验证量化网络。
Dec, 2023