通过权值均衡和偏置校正实现零数据量量化
本文探讨了移动设备上深度神经网络低精度表示的问题,提出了一个简单的方法通过在通道的参数中添加一个常数来解决量化引起的移位问题,从而实现了对 MobileNet 架构的优化。
Jun, 2019
本文概述了卷积神经网络量化技术,研究发现通过对权重和激活进行逐通道和逐层量化,即使在不支持 8 位运算的情况下,将权重量化为 8 位可以将模型大小降低 4 倍,并且分类的准确率可以达到浮点型卷积神经网络的 98%。作者介绍了针对 CPU 和 DSP 的量化网络的等待时间基准测试,并观察到相比于 CPU 上的浮点运算,量化实现的速度提高了 2 倍至 3 倍。作者提出了一种通过 TensorFlow 和 TensorFlowLite 进行卷积网络量化的工具,并回顾了用于量化训练的最佳实践。作者建议,对于硬件加速和内核优化,应将逐通道量化的权重和逐层量化的激活作为首选量化方案,并提议未来处理器和硬件加速器用于优化推断时支持 4、8 和 16 位的精度。
Jun, 2018
本文提出了一种基于梯度下降优化的深度神经网络压缩的精细化量化方法,通过在不同结构、层次上采用不同的精度,达到更好的压缩比和准确率的平衡。实验结果表明,与传统量化方法相比,该方法在相同压缩率下表现更优。
Oct, 2018
提出了一种新的价值感知量化方法,通过将大多数数据应用极低的精度并单独处理一小部分高精度数据以减少总量化误差。该方法可显著减少 ResNet-152 和 Inception-v3 的激活器内存成本,并能实现 1%以下的 top-1 精度下降。
Apr, 2018
本文研究发现深度神经网络在训练时即使将权重量化并投影为二进制表示也能取得优秀的性能,而在测试阶段,这些网络对于除量化以外的扭曲,包括加性和乘性噪声以及一类非线性投影具有显著的鲁棒性。此外,我们还发现基本水平的鲁棒性可以通过调整或删除一个通用的训练启发式(即在反向传播过程中投影量化权重)来实现,包括使用其他类型的权重投影和简单地剪裁权重。最后,我们提出了一种随机投影规则,实现了无数据增强条件下 CIFAR-10 中 7.64% 的测试错误率的最新记录。
Jun, 2016
本文提出了一种用于深度神经网络(DNN)压缩的联合训练方法,以便同时训练量化器和 DNN,以便量化网络权重和激活,并提高量化模型的预测准确性。在 CIFAR-10 和 ImageNet 数据集上进行的全面实验显示,该方法在各种网络结构上都运行良好,超越了以前的量化方法。
Jul, 2018
F8Net 是一种完全由固定点 8 位乘法构成的量化框架,可以降低神经网络量化模型与完全精度模型之间的性能差距,并显著降低内存占用和能源消耗。
Feb, 2022
本文提出了一种针对深度模型量化的优化框架和量化算法,首次理论分析单个图层的参数量化误差与模型精度之间的关系,达到了比以前的优化方法更高的压缩率和相同模型精度下更高的压缩率。
Dec, 2017