HMQ: 用于卷积神经网络的硬件友好型混合精度量化块
本文介绍了一种基于深度强化学习的硬件感知自适应量化方法,将硬件加速器的反馈置于设计循环中以自动确定量化策略,该方法可以为不同的神经网络架构和硬件架构专门量身定制量化策略。与传统方法相比,该方法可以将延迟降低1.4-1.95倍,能量消耗降低1.9倍,并提供了不同量化策略的含义,为神经网络架构设计和硬件架构设计提供了新的思路。
Nov, 2018
本研究介绍了一种基于 Hessian 矩阵的自适应量化方法(HAWQ),可实现神经网络中各层的不同量化精度,并通过对 ResNet20、Inception-V3、ResNet50 和 SqueezeNext 模型的评测结果表明,与先前的方法相比,HAWQ 可以减小模型大小,同时提高精度。
Apr, 2019
提出一种新的基于学习的算法,用于在目标计算约束和模型大小下端到端地推导混合精度模型。该方法能够通过逐渐调整模型中每个层/核心的位宽,实现两个连续位宽的分数状态来满足资源约束,使量化的使模型经过量化感知训练,能够最终获得优化的混合精度模型,并且可以与通道剪枝自然结合使用,以更好地分配计算成本。实验结果表明,在 ImageNet 数据集上,我们的最终模型在不同的资源约束下,达到了与之前混合精度量化方法相当或更好的性能。
Jul, 2020
本文提出了一种基于深度强化学习的硬件感知自动量化框架 (HAQ),旨在为不同的神经网络体系结构和硬件体系结构确定最佳的量化策略,以提高计算效率并在保持准确性的前提下减少延迟和能耗。 在硬件仿真器的帮助下,该框架的有效性已得到证明。
Aug, 2020
采用离散约束优化问题和二阶泰勒展开,提出了解决深度神经网络中多精度量化问题的一种高效算法,并在ImageNet数据集和各种网络体系结构上得出了比现有方法更优的结果。
Oct, 2021
本文提出了一种基于patch的混合精度量化方法,用于ViTs神经网络的高效推理,通过引入轻量级全局度量并采用帕累托前沿法自动分配最佳的位精度来减少搜索成本。实验证明这种方法大大减少了搜索成本,使混合精度量化应用于ViTs变得容易。
May, 2023
该论文提出了一种混合精度搜索方法,该方法通过硬件无关的可微分搜索算法和硬件感知优化算法来寻找特定硬件目标上的优化后的混合精度配置,以减少模型大小、延迟并保持统计准确性,该方法在MobileNetV1和MobileNetV2上进行了评估,在具有不同硬件特性的多核RISC-V微控制器平台上展示了与8位模型相比高达28.6%的端到端延迟降低,在没有对子字节算术支持的系统上也能实现加速,同时在代表延迟的减少二进制运算次数上,我们的方法也表现出优越性。
Jul, 2023
本文提出了一种在芯片上进行硬件感知的混合精度量化(OHQ)框架,通过构建在芯片上的量化感知管道(OQA)和基于掩码的量化估计(MQE)技术,实现了从硬件感知的混合精度量化。通过合成网络和硬件的见解,通过线性规划获得了优化的位宽配置。OHQ在完全无需额外的计算设备和数据访问的情况下,对各种体系结构和压缩比率进行了量化推理,为ResNet-18和MobileNetV3分别实现了70%和73%的准确率,并且相较于部署中的INT8,减少了15~30%的延迟。
Sep, 2023
该论文提出了一种名为LCPAQ的新型模型量化方法,其中包含三个关键模块。在考虑硬件限制的基础上设计了硬件感知模块,开发了自适应混合精度量化模块来评估量化灵敏度,并使用希狄矩阵和Pareto边界技术进行整数线性规划来微调不同层的量化。然后,低成本代理神经架构搜索模块高效探索理想的量化超参数。在ImageNet上的实验证明,提出的LCPAQ在量化精度方面达到了与现有混合精度模型相当甚至更好的水平。值得注意的是,与现有方法相比,LCPAQ的搜索时间减少了1/200,从而为资源有限设备的实际量化使用提供了捷径。
Feb, 2024
本研究解决了深度神经网络(DNN)在资源有限的计算平台上执行时的量化鲁棒性不足的问题。提出的ARQ方法通过强化学习寻找到既准确又鲁棒的DNN量化方案,同时利用随机平滑技术指导搜索过程,保证了分类器的清洁准确性和认证鲁棒性。实验结果表明,ARQ在多个基准测试中优于传统量化技术,甚至在许多情况下与原始浮点权重的DNN性能相当,但仅需1.5%的指令集。
Oct, 2024