量子化神经网络方法和理论综述
本研究介绍了一种训练低精度神经网络的方法,该方法使用二进制操作代替计算,达到降低内存大小、减少电力消耗的目的。经过MNIST、CIFAR-10、SVHN、ImageNet和Penn Treebank数据集的测试,结果表明1位权重和2位激活的量化版本的AlexNet能够达到51%的准确率,训练过程中也能使用仅有的二进制操作实现损失函数的计算,并在损失部分的代码上进行了优化,使得QNN的运行速度能比未优化的GPU加速速度快七倍,并且没有影响分类准确性。
Sep, 2016
本篇论文研究了深度神经网络的低精度模型的训练方法,探讨了在小型设备上训练深度神经网络的难点,提出了一种理论视角下的量化训练方法,并探索了非凸问题下的算法行为模型。
Jun, 2017
本文提出了一种针对深度模型量化的优化框架和量化算法,首次理论分析单个图层的参数量化误差与模型精度之间的关系,达到了比以前的优化方法更高的压缩率和相同模型精度下更高的压缩率。
Dec, 2017
本文概述了卷积神经网络量化技术,研究发现通过对权重和激活进行逐通道和逐层量化,即使在不支持8位运算的情况下,将权重量化为8位可以将模型大小降低4倍,并且分类的准确率可以达到浮点型卷积神经网络的98%。作者介绍了针对CPU和DSP的量化网络的等待时间基准测试,并观察到相比于CPU上的浮点运算,量化实现的速度提高了2倍至3倍。作者提出了一种通过TensorFlow和TensorFlowLite进行卷积网络量化的工具,并回顾了用于量化训练的最佳实践。作者建议,对于硬件加速和内核优化,应将逐通道量化的权重和逐层量化的激活作为首选量化方案,并提议未来处理器和硬件加速器用于优化推断时支持4、8和16位的精度。
Jun, 2018
本文介绍了量化技术如何减小深度神经网络的规模,提高推理延迟和吞吐量,并评估它们在各种应用领域的不同神经网络模型上的选择,包括视觉、语音和语言等方面,并重点介绍适用于高吞吐量整数数学流水线处理器加速的量化技术。同时,还提供了一种8位量化工作流,能够在所有研究的网络上保持1%的浮点基线精度,包括更难量化的模型,如MobileNets和BERT-large。
Apr, 2020
本文提出了通过利用微分方法来搜索离散权重的概率分布并在训练过程中进行优化,以建立所需的量化神经网络,该方法在图像分类和超分辨率任务上表现明显优于现有的最先进方法。
Sep, 2020
本文旨在综述深度神经网络计算中数值量化的方法和优缺点,囊括了使用固定整数值的优点、及降低4x到8x等现实应用中的实际结果,以及占用更少的内存和降低延迟的潜力。
Mar, 2021
该论文提出了一种基于量化的后训练量化流程,无需重新训练即可加速深度神经网络的推理,并得到了在ImageNet上6位的Top-1准确率增加2.2%的结果。
Oct, 2022
通过非均匀量化和自同构的方法,优化了深度神经网络的量化问题,实现了整数位低比特推断,并在无数据和有数据两种配置下,实现了最先进的压缩率。
Aug, 2023