神经网络的框架量化
本文概述了卷积神经网络量化技术,研究发现通过对权重和激活进行逐通道和逐层量化,即使在不支持8位运算的情况下,将权重量化为8位可以将模型大小降低4倍,并且分类的准确率可以达到浮点型卷积神经网络的98%。作者介绍了针对CPU和DSP的量化网络的等待时间基准测试,并观察到相比于CPU上的浮点运算,量化实现的速度提高了2倍至3倍。作者提出了一种通过TensorFlow和TensorFlowLite进行卷积网络量化的工具,并回顾了用于量化训练的最佳实践。作者建议,对于硬件加速和内核优化,应将逐通道量化的权重和逐层量化的激活作为首选量化方案,并提议未来处理器和硬件加速器用于优化推断时支持4、8和16位的精度。
Jun, 2018
本文提出了一种用于深度神经网络(DNN)压缩的联合训练方法,以便同时训练量化器和DNN,以便量化网络权重和激活,并提高量化模型的预测准确性。在CIFAR-10和ImageNet数据集上进行的全面实验显示,该方法在各种网络结构上都运行良好,超越了以前的量化方法。
Jul, 2018
本文研究了神经网络中权重和激活量化的影响,提出了一种简单的正则化方案来提高其对培训后量化的适应性。通过训练量化-ready的网络,我们的方法可以存储一组可按需量化为不同位宽的权重。我们将量化建模为有界扰动,并使用梯度的L1范数来对其进行正则化,实验证明了我们该方案的有效性。
Feb, 2020
本文旨在综述深度神经网络计算中数值量化的方法和优缺点,囊括了使用固定整数值的优点、及降低4x到8x等现实应用中的实际结果,以及占用更少的内存和降低延迟的潜力。
Mar, 2021
本研究提出了一种针对神经网络量化的方法,该方法通过量化权重来降低计算成本、内存占用和功耗,并促进权重的稀疏性,使用本方法在ImageNet上测试显示准确性的损失很小。
Jan, 2022
本文提出了一种快速随机算法来对完全训练的神经网络权重进行量化,建立了全网络错误边界,证明了过参数化程度增加时相对平方量化误差呈线性衰减,同时展示了在每个权重上仅使用O(log(log N))位可以达到等同于无穷字母表情况下的错误边界。
Sep, 2023
使用更少的位数表示模型权重和激活,量化降低了内存使用、计算需求和延迟。我们研究了量化神经网络的泛化性质,首先通过理论模型表明了量化作为一种正则化的功能,其次通过与损失函数曲线陡峭度与泛化的相关性的研究,提出了一个近似限制量化模型泛化性的方法,通过在CIFAR-10、CIFAR-100和ImageNet数据集上对卷积和Transformer模型进行超过2000次实验进行验证。
Apr, 2024