F8Net: 仅限定点 8 位乘法用于网络量化
本文提出一种新的深度神经网络固定点量化框架 (FxP-QNet),该框架可以在保证网络精度的前提下,根据网络对低精度的需求动态地设计不同精度的量化级别。在基准测试 (ImageNet) 中,模型的内存需求得到了 7.16 倍 - 10.36 倍的压缩,同时准确率只有不到 2% 的损失。
Mar, 2022
本研究深入探究了采用浮点数格式(FP8)进行神经网络量化的性能优势,分析了尾数和指数位数选择对性能的影响,并通过大量实验证明,相对于 INT8 格式,FP8 格式具有更高的精度和更优的性能。
Aug, 2022
本文提出了一种名为 WAGEUBN 的统一完整量化框架,可将神经网络的数据路径(包括所有数据类型 W,A,G,E,U 和 BN)中所有数据转换为低位整数以实现全面量化和在线训练,并在 ImageNet 数据集上获得了可比较的精度,展示了在大规模 DNNs 中 8 位 INT 级别的完整量化的功能性。
Sep, 2019
介绍了一种数据自由的量化深度神经网络方法,采用固定 8 位定点量化的方式来提高计算效率,并且通过处理激活函数中的比例等变性和纠正误差偏差来提高性能和准确度,可应用于常见的计算机视觉架构和任务中,以 API 调用的形式提高量化模型的性能和表现。
Jun, 2019
本文提出了一种新颖的端到端方法,用于在微控制器上部署低误差的深度神经网络,通过混合低位宽压缩,结合 8、4 或 2 位均匀量化,以整数运算来建模推理图,旨在确定每个激活和权重张量的最小位精度,摆脱了资源受限边缘设备的内存和计算限制,通过一个基于规则的迭代过程,运用量化感知的重训练,将虚假量化图转换为整数推理模型,使用整数通道归一化 (ICN) 图层将该模型部署到只有 2MB 的 FLASH 存储器和 512kB 的 RAM 设备上,并报告了基于 STM32H7 微控制器的混合精度 MobilenetV1 家族网络的延迟 - 精度评估结果,实验结果表明,相比于之前发表的微控制器 8 位实现,Top1 精度提高了 8%,达到了 68%。
May, 2019
本文概述了卷积神经网络量化技术,研究发现通过对权重和激活进行逐通道和逐层量化,即使在不支持 8 位运算的情况下,将权重量化为 8 位可以将模型大小降低 4 倍,并且分类的准确率可以达到浮点型卷积神经网络的 98%。作者介绍了针对 CPU 和 DSP 的量化网络的等待时间基准测试,并观察到相比于 CPU 上的浮点运算,量化实现的速度提高了 2 倍至 3 倍。作者提出了一种通过 TensorFlow 和 TensorFlowLite 进行卷积网络量化的工具,并回顾了用于量化训练的最佳实践。作者建议,对于硬件加速和内核优化,应将逐通道量化的权重和逐层量化的激活作为首选量化方案,并提议未来处理器和硬件加速器用于优化推断时支持 4、8 和 16 位的精度。
Jun, 2018
本研究提出了一种基于聚类的量化方法,将预先训练好的全精度权重转换为三元权重,并将激活约束为 8 位,从而实现小于 8 位完整整数推理管道。此方法使用较小的 N 个过滤器的簇,并使用共同缩放因子来最小化量化损失,同时最大化三元操作的数量。在 ResNet-101 上使用 N=4 的簇大小,可以在替换了 85%的所有乘法运算为 8 位累加之后,实现 71.8%的 TOP-1 准确度。 使用 4 位权重的相同方法实现 76.3%,相对于全精度结果的误差不到 2%。同时,本研究还探讨了集群大小对性能和准确性的影响。 N=64 的较大集群大小可以使用三元操作替换 98%的乘法,但会显著降低准确性,需要在更低的精度下对参数进行微调和网络重新训练。为了解决这个问题,我们还使用全精度权重预初始化网络,通过 8 位激活和三元权重训练了低精度 ResNet-50,在额外的 4 个 epoch 内实现了 68.9%的 TOP-1 准确度。最终量化模型可以在完整的 8 位计算管道上运行,相对于基线全精度模型具有潜在的 16 倍性能提升。
Jan, 2017
本文介绍了一个使用 8 位浮点表示法训练深度神经网络的方法,减少计算精度和主权重复制的精度要求,并且通过强化误差传播和降低量化噪声的方法来提高模型性能。实验表明,所提出方法在多个数据集和不同工作负载下与精度基线相比不降反升。
May, 2019
本文通过对 GLUE 和 SQuAD v1.1 数据集上的 BERT 变种进行大量实验,验证了 FP8 作为一种进行后训练量化的有效方式,能够在不显著损失精度的情况下提高准确性。
Dec, 2023