HadaNets: 神经网络的灵活量化策略
本研究介绍了一种基于 Hessian 矩阵的自适应量化方法(HAWQ),可实现神经网络中各层的不同量化精度,并通过对 ResNet20、Inception-V3、ResNet50 和 SqueezeNext 模型的评测结果表明,与先前的方法相比,HAWQ 可以减小模型大小,同时提高精度。
Apr, 2019
本文介绍了一种利用分层、分参数类型的自动量化过程来设计深度神经网络模型的方法,旨在使模型能够在芯片上进行高精度、纳秒级推理和完全自动化部署。这对于 CERN 大型强子对撞机中的事件选择过程至关重要,其中资源严格限制,需要一种纳秒级的推理和降低 50 倍的资源消耗。
Jun, 2020
本文介绍了一种基于训练的三元量化方法,该方法可帮助在移动设备上部署具有限功率预算的神经网络模型,该方法在降低权重精度的同时保持高准确性,并通过实验表明该模型在 CIFAR-10 和 ImageNet 上的性能优于传统方法。
Dec, 2016
本篇论文研究了深度神经网络的低精度模型的训练方法,探讨了在小型设备上训练深度神经网络的难点,提出了一种理论视角下的量化训练方法,并探索了非凸问题下的算法行为模型。
Jun, 2017
本论文介绍了一种将 QNN 推理操作转换为整数推理操作的流程,以及一些基于比特串处理技术的方法,以常见的按位操作有效地部署 QNN。作者展示了 QNN 在移动 CPU 上的潜力,并提供了一个比特串矩阵乘法库。
Sep, 2017
通过使用二次幂量化和基于位移乘累加运算代替传统的乘累加运算,以及基于对数量化的新型剪枝方法,本文在基于 Zynq UltraScale + MPSoC ZCU104 SoC FPGA 的硬件神经网络加速器中实现了 Power-of-Two (PoT) 权重,实现了至少 $1.4x$ 的能效提升。
Sep, 2022
HAWQV3 提出了一种新型的混合精度整数量化框架,通过纯整数运算、硬件感知混合精度量化和直接硬件部署方法,实现了模型压缩和量化加速,其中 INT8 量化的准确率比之前的整数方法提高了 2.68%,同时混合精度的 INT4/8 量化可以将 INT8 的延迟降低 23%且仍能保持 76.73%的准确率。
Nov, 2020
本研究介绍了一种训练低精度神经网络的方法,该方法使用二进制操作代替计算,达到降低内存大小、减少电力消耗的目的。经过 MNIST、CIFAR-10、SVHN、ImageNet 和 Penn Treebank 数据集的测试,结果表明 1 位权重和 2 位激活的量化版本的 AlexNet 能够达到 51% 的准确率,训练过程中也能使用仅有的二进制操作实现损失函数的计算,并在损失部分的代码上进行了优化,使得 QNN 的运行速度能比未优化的 GPU 加速速度快七倍,并且没有影响分类准确性。
Sep, 2016
本文介绍了一种将 DNN 网络转化为限定精度以充分利用能源高效加速器的简单方法,通过识别通道级分布以减少量化引起的精度损失和最小化所需的图像采样量,在 ImageNet 分类基准测试上通过了 11 个网络的评估,并且不需要微调即可将网络量化为 8 位整数精度。
Oct, 2018
通过使用廉价的哈达玛变换,我们提出了一种在只进行整数矩阵乘法的低精度训练中降低计算精度的技术,进一步确定了哪些张量需要进行随机舍入,并提出了平铺矩阵乘法来实现低位宽累加器。在几个人体活动识别数据集和 CIFAR100 的类增量学习环境中,我们展示了我们技术的有效性,当我们将所有矩阵乘法输入量化为 4 位并使用 8 位累加器时,我们实现了不到 0.5% 和 3% 的准确度降低。
Oct, 2023