神经网络的训练与推理的价值感知量化
本文概述了卷积神经网络量化技术,研究发现通过对权重和激活进行逐通道和逐层量化,即使在不支持8位运算的情况下,将权重量化为8位可以将模型大小降低4倍,并且分类的准确率可以达到浮点型卷积神经网络的98%。作者介绍了针对CPU和DSP的量化网络的等待时间基准测试,并观察到相比于CPU上的浮点运算,量化实现的速度提高了2倍至3倍。作者提出了一种通过TensorFlow和TensorFlowLite进行卷积网络量化的工具,并回顾了用于量化训练的最佳实践。作者建议,对于硬件加速和内核优化,应将逐通道量化的权重和逐层量化的激活作为首选量化方案,并提议未来处理器和硬件加速器用于优化推断时支持4、8和16位的精度。
Jun, 2018
本文提出了一种用于深度神经网络(DNN)压缩的联合训练方法,以便同时训练量化器和DNN,以便量化网络权重和激活,并提高量化模型的预测准确性。在CIFAR-10和ImageNet数据集上进行的全面实验显示,该方法在各种网络结构上都运行良好,超越了以前的量化方法。
Jul, 2018
本文探讨了移动设备上深度神经网络低精度表示的问题,提出了一个简单的方法通过在通道的参数中添加一个常数来解决量化引起的移位问题,从而实现了对MobileNet架构的优化。
Jun, 2019
本文介绍了量化技术如何减小深度神经网络的规模,提高推理延迟和吞吐量,并评估它们在各种应用领域的不同神经网络模型上的选择,包括视觉、语音和语言等方面,并重点介绍适用于高吞吐量整数数学流水线处理器加速的量化技术。同时,还提供了一种8位量化工作流,能够在所有研究的网络上保持1%的浮点基线精度,包括更难量化的模型,如MobileNets和BERT-large。
Apr, 2020
本文旨在综述深度神经网络计算中数值量化的方法和优缺点,囊括了使用固定整数值的优点、及降低4x到8x等现实应用中的实际结果,以及占用更少的内存和降低延迟的潜力。
Mar, 2021
研究表明,使用4位和8位模型量化的bfloat16 ResNet模型计算成本和准确性的权衡曲线优于bfloat16模型,其中以4位模型量化为主的模型具有最佳Pareto曲线,并且基于量化感知训练的4位ResNet-50模型在ImageNet上取得了77.09%的准确率。
May, 2021
介绍了现代神经网络中减少计算成本和提高性能的两种量化算法: Post-Training Quantization和Quantization-Aware Training。
Jun, 2021
本研究提出了一种针对神经网络量化的方法,该方法通过量化权重来降低计算成本、内存占用和功耗,并促进权重的稀疏性,使用本方法在ImageNet上测试显示准确性的损失很小。
Jan, 2022
该论文提出了一种基于量化的后训练量化流程,无需重新训练即可加速深度神经网络的推理,并得到了在ImageNet上6位的Top-1准确率增加2.2%的结果。
Oct, 2022