使用浮点数权重和固定点激活函数的深度卷积神经网络推断
该研究探讨了使用低精度浮点数表示法(例如 8 位浮点数格式)对深度学习模型进行训练和推理的影响,结果表明合适的低精度格式选择可加快训练和降低功耗,而不会降低准确性。
Jun, 2022
本文概述了卷积神经网络量化技术,研究发现通过对权重和激活进行逐通道和逐层量化,即使在不支持 8 位运算的情况下,将权重量化为 8 位可以将模型大小降低 4 倍,并且分类的准确率可以达到浮点型卷积神经网络的 98%。作者介绍了针对 CPU 和 DSP 的量化网络的等待时间基准测试,并观察到相比于 CPU 上的浮点运算,量化实现的速度提高了 2 倍至 3 倍。作者提出了一种通过 TensorFlow 和 TensorFlowLite 进行卷积网络量化的工具,并回顾了用于量化训练的最佳实践。作者建议,对于硬件加速和内核优化,应将逐通道量化的权重和逐层量化的激活作为首选量化方案,并提议未来处理器和硬件加速器用于优化推断时支持 4、8 和 16 位的精度。
Jun, 2018
本文介绍了一个使用 8 位浮点表示法训练深度神经网络的方法,减少计算精度和主权重复制的精度要求,并且通过强化误差传播和降低量化噪声的方法来提高模型性能。实验表明,所提出方法在多个数据集和不同工作负载下与精度基线相比不降反升。
May, 2019
本文提出了一种新的数据表示方式,使得可以使用低至 3 位定点数对先进的卷积神经网络进行编码而几乎不损失分类性能,并使用非线性、基于 2 的对数表示法来进行权重编码、激活通信和点积计算,从而能够取得比相同精度的定点数有更高的分类精度,并消除笨重的数字乘法器,最终提出了一种端到端训练流程,使用 5 位对数表示法,最终测试精度比 5 位线性表示法更高。
Mar, 2016
本文介绍了使用较低的精度来训练深度神经网络的成功实践,通过引入基于块的操作和浮点随机取整等技术,成功地实现了在 8 位浮点数下对多种深度学习模型和数据集进行了精确的训练。这些新技术为新一代硬件训练平台奠定了基础,并具有提高 2-4 倍吞吐量的潜力。
Dec, 2018
该研究探讨有限精度数据表示和计算对神经网络训练的影响,并通过使用随机舍入的低精度定点计算方法在 16 位宽度的数据表示下训练深度网络来减少能量消耗并获得高分类准确性。
Feb, 2015
本文提出了一种量化方案,通过在参考浮点模型上校准而不是重新训练来确定量化方案参数,从而实现了基于更高效的算术进行推理,并且在量化后的结果中,终端到终端精度可与基准模型相当。
May, 2018
本文在不重新训练的情况下测试了几种经典的卷积神经网络 (CNN) 模型,验证了使用块浮点算法 (BFP) 在 CNN 加速器中定义字宽的效果,并探究了理论计算误差,提出了噪声信号比(NSR)的上限,为基于 BFP 的 CNN 引擎设计提供了有价值的指导。
Sep, 2017