SYQ:学习对称量化以实现高效的深度神经网络
介绍了一种增量网络量化方法,该方法可以高效地将任何已训练好的卷积神经网络模型转换为低精度版本,它的权重被限制为二的幂次或零,并成功解决了现有方法存在的精度丢失问题。
Feb, 2017
本文提出了一种新的量化方法,可以确保量化值分布的平衡性,通过对参数进行分位数递归划分并应用均匀量化,可以提高 QNN 的预测准确性,同时对训练速度几乎没有影响,并可适用于卷积神经网络和循环神经网络。
Jun, 2017
本文概述了卷积神经网络量化技术,研究发现通过对权重和激活进行逐通道和逐层量化,即使在不支持8位运算的情况下,将权重量化为8位可以将模型大小降低4倍,并且分类的准确率可以达到浮点型卷积神经网络的98%。作者介绍了针对CPU和DSP的量化网络的等待时间基准测试,并观察到相比于CPU上的浮点运算,量化实现的速度提高了2倍至3倍。作者提出了一种通过TensorFlow和TensorFlowLite进行卷积网络量化的工具,并回顾了用于量化训练的最佳实践。作者建议,对于硬件加速和内核优化,应将逐通道量化的权重和逐层量化的激活作为首选量化方案,并提议未来处理器和硬件加速器用于优化推断时支持4、8和16位的精度。
Jun, 2018
本文提出了一种用于深度神经网络(DNN)压缩的联合训练方法,以便同时训练量化器和DNN,以便量化网络权重和激活,并提高量化模型的预测准确性。在CIFAR-10和ImageNet数据集上进行的全面实验显示,该方法在各种网络结构上都运行良好,超越了以前的量化方法。
Jul, 2018
本文介绍了量化技术如何减小深度神经网络的规模,提高推理延迟和吞吐量,并评估它们在各种应用领域的不同神经网络模型上的选择,包括视觉、语音和语言等方面,并重点介绍适用于高吞吐量整数数学流水线处理器加速的量化技术。同时,还提供了一种8位量化工作流,能够在所有研究的网络上保持1%的浮点基线精度,包括更难量化的模型,如MobileNets和BERT-large。
Apr, 2020
介绍了现代神经网络中减少计算成本和提高性能的两种量化算法: Post-Training Quantization和Quantization-Aware Training。
Jun, 2021
本研究提出了一种针对神经网络量化的方法,该方法通过量化权重来降低计算成本、内存占用和功耗,并促进权重的稀疏性,使用本方法在ImageNet上测试显示准确性的损失很小。
Jan, 2022
本文提出了一种快速随机算法来对完全训练的神经网络权重进行量化,建立了全网络错误边界,证明了过参数化程度增加时相对平方量化误差呈线性衰减,同时展示了在每个权重上仅使用O(log(log N))位可以达到等同于无穷字母表情况下的错误边界。
Sep, 2023