本文提出了一种新的量化方法,可以确保量化值分布的平衡性,通过对参数进行分位数递归划分并应用均匀量化,可以提高 QNN 的预测准确性,同时对训练速度几乎没有影响,并可适用于卷积神经网络和循环神经网络。
Jun, 2017
提出了一种新的价值感知量化方法,通过将大多数数据应用极低的精度并单独处理一小部分高精度数据以减少总量化误差。该方法可显著减少ResNet-152和Inception-v3的激活器内存成本,并能实现1%以下的top-1精度下降。
Apr, 2018
本文概述了卷积神经网络量化技术,研究发现通过对权重和激活进行逐通道和逐层量化,即使在不支持8位运算的情况下,将权重量化为8位可以将模型大小降低4倍,并且分类的准确率可以达到浮点型卷积神经网络的98%。作者介绍了针对CPU和DSP的量化网络的等待时间基准测试,并观察到相比于CPU上的浮点运算,量化实现的速度提高了2倍至3倍。作者提出了一种通过TensorFlow和TensorFlowLite进行卷积网络量化的工具,并回顾了用于量化训练的最佳实践。作者建议,对于硬件加速和内核优化,应将逐通道量化的权重和逐层量化的激活作为首选量化方案,并提议未来处理器和硬件加速器用于优化推断时支持4、8和16位的精度。
Jun, 2018
本文提出一种矢量量化方法,以减小卷积神经网络架构的存储占用,能以较小的内存占用提供高精度的图像识别。
Jul, 2019
本文提出了一种新的二进制量化方式,使用该方式可以提高神经网络的推断效率,并在ImageNet数据集上进行了实验验证。
Jan, 2020
本文研究使用后训练量化方法达到低于8位的精度损失和模型压缩,采用分层次优化参数和整数规划方案,性能在视觉和文本模型上最优。
Jun, 2020
通过深入分析网络量化中易被忽视的trade-offs,本文建议使用quantization cards清晰地表达设计选择以帮助研究人员更有效地比较方法,帮助工程师确定量化技术的适用性,从而提高网络量化的准确性和可行性。
Feb, 2021
介绍了现代神经网络中减少计算成本和提高性能的两种量化算法: Post-Training Quantization和Quantization-Aware Training。
Jun, 2021
本研究提出了一种针对神经网络量化的方法,该方法通过量化权重来降低计算成本、内存占用和功耗,并促进权重的稀疏性,使用本方法在ImageNet上测试显示准确性的损失很小。
Jan, 2022
使用更少的位数表示模型权重和激活,量化降低了内存使用、计算需求和延迟。我们研究了量化神经网络的泛化性质,首先通过理论模型表明了量化作为一种正则化的功能,其次通过与损失函数曲线陡峭度与泛化的相关性的研究,提出了一个近似限制量化模型泛化性的方法,通过在CIFAR-10、CIFAR-100和ImageNet数据集上对卷积和Transformer模型进行超过2000次实验进行验证。
Apr, 2024