HAWQV3:二元神经网络量化
本研究介绍了一种基于 Hessian 矩阵的自适应量化方法(HAWQ),可实现神经网络中各层的不同量化精度,并通过对 ResNet20、Inception-V3、ResNet50 和 SqueezeNext 模型的评测结果表明,与先前的方法相比,HAWQ 可以减小模型大小,同时提高精度。
Apr, 2019
本文提出了一种量化方案,通过整数运算进行推断,以提高在移动设备上的效率,并设计了一种训练程序来维护量化后的模型精度。该方案在 MobileNets 模型中展现了显著的改进,在 ImageNet 分类和 COCO 检测等任务上获得了良好的结果。
Dec, 2017
提出了一种新的价值感知量化方法,通过将大多数数据应用极低的精度并单独处理一小部分高精度数据以减少总量化误差。该方法可显著减少 ResNet-152 和 Inception-v3 的激活器内存成本,并能实现 1%以下的 top-1 精度下降。
Apr, 2018
本文介绍了一种基于深度强化学习的硬件感知自适应量化方法,将硬件加速器的反馈置于设计循环中以自动确定量化策略,该方法可以为不同的神经网络架构和硬件架构专门量身定制量化策略。与传统方法相比,该方法可以将延迟降低 1.4-1.95 倍,能量消耗降低 1.9 倍,并提供了不同量化策略的含义,为神经网络架构设计和硬件架构设计提供了新的思路。
Nov, 2018
本文提出了一种新颖的端到端方法,用于在微控制器上部署低误差的深度神经网络,通过混合低位宽压缩,结合 8、4 或 2 位均匀量化,以整数运算来建模推理图,旨在确定每个激活和权重张量的最小位精度,摆脱了资源受限边缘设备的内存和计算限制,通过一个基于规则的迭代过程,运用量化感知的重训练,将虚假量化图转换为整数推理模型,使用整数通道归一化 (ICN) 图层将该模型部署到只有 2MB 的 FLASH 存储器和 512kB 的 RAM 设备上,并报告了基于 STM32H7 微控制器的混合精度 MobilenetV1 家族网络的延迟 - 精度评估结果,实验结果表明,相比于之前发表的微控制器 8 位实现,Top1 精度提高了 8%,达到了 68%。
May, 2019
本文介绍了一种基于训练的三元量化方法,该方法可帮助在移动设备上部署具有限功率预算的神经网络模型,该方法在降低权重精度的同时保持高准确性,并通过实验表明该模型在 CIFAR-10 和 ImageNet 上的性能优于传统方法。
Dec, 2016
本文提出了一种基于深度强化学习的硬件感知自动量化框架 (HAQ),旨在为不同的神经网络体系结构和硬件体系结构确定最佳的量化策略,以提高计算效率并在保持准确性的前提下减少延迟和能耗。 在硬件仿真器的帮助下,该框架的有效性已得到证明。
Aug, 2020
本文提出了一种在芯片上进行硬件感知的混合精度量化(OHQ)框架,通过构建在芯片上的量化感知管道(OQA)和基于掩码的量化估计(MQE)技术,实现了从硬件感知的混合精度量化。通过合成网络和硬件的见解,通过线性规划获得了优化的位宽配置。OHQ 在完全无需额外的计算设备和数据访问的情况下,对各种体系结构和压缩比率进行了量化推理,为 ResNet-18 和 MobileNetV3 分别实现了 70%和 73%的准确率,并且相较于部署中的 INT8,减少了 15~30%的延迟。
Sep, 2023
本文概述了卷积神经网络量化技术,研究发现通过对权重和激活进行逐通道和逐层量化,即使在不支持 8 位运算的情况下,将权重量化为 8 位可以将模型大小降低 4 倍,并且分类的准确率可以达到浮点型卷积神经网络的 98%。作者介绍了针对 CPU 和 DSP 的量化网络的等待时间基准测试,并观察到相比于 CPU 上的浮点运算,量化实现的速度提高了 2 倍至 3 倍。作者提出了一种通过 TensorFlow 和 TensorFlowLite 进行卷积网络量化的工具,并回顾了用于量化训练的最佳实践。作者建议,对于硬件加速和内核优化,应将逐通道量化的权重和逐层量化的激活作为首选量化方案,并提议未来处理器和硬件加速器用于优化推断时支持 4、8 和 16 位的精度。
Jun, 2018
该研究论文介绍了一种名为 HadaNets 的新型神经网络模型,可以在不占用太多内存和训练时间的情况下有效地训练和推理深度神经网络,同时具有优秀的模型压缩性能。
May, 2019