OHQ: 在芯片上的硬件感知量化
本文介绍了一种基于深度强化学习的硬件感知自适应量化方法,将硬件加速器的反馈置于设计循环中以自动确定量化策略,该方法可以为不同的神经网络架构和硬件架构专门量身定制量化策略。与传统方法相比,该方法可以将延迟降低1.4-1.95倍,能量消耗降低1.9倍,并提供了不同量化策略的含义,为神经网络架构设计和硬件架构设计提供了新的思路。
Nov, 2018
本文提出了一种新颖的端到端方法,用于在微控制器上部署低误差的深度神经网络,通过混合低位宽压缩,结合8、4或2位均匀量化,以整数运算来建模推理图,旨在确定每个激活和权重张量的最小位精度,摆脱了资源受限边缘设备的内存和计算限制,通过一个基于规则的迭代过程,运用量化感知的重训练,将虚假量化图转换为整数推理模型,使用整数通道归一化(ICN)图层将该模型部署到只有2MB的FLASH存储器和512kB的RAM设备上,并报告了基于 STM32H7 微控制器的混合精度 MobilenetV1 家族网络的延迟-精度评估结果,实验结果表明,相比于之前发表的微控制器8位实现,Top1 精度提高了8%,达到了68%。
May, 2019
本文提出了HMQ,一个基于Gumbel-Softmax估计器的混合精度量化块,搜索有限的量化方案空间,以覆盖在边缘设备硬件实现中需要的均匀和具有2的幂级别阈值的量化器需求,并在CIFAR10和ImageNet训练的分类模型上应用HMQ,证明在一些情况下,虽然添加了限制,但也能够实现竞争性和最先进的结果。
Jul, 2020
本文提出了一种基于深度强化学习的硬件感知自动量化框架 (HAQ),旨在为不同的神经网络体系结构和硬件体系结构确定最佳的量化策略,以提高计算效率并在保持准确性的前提下减少延迟和能耗。 在硬件仿真器的帮助下,该框架的有效性已得到证明。
Aug, 2020
提出了一种基于激活函数的、硬件友好型的低比特权重量化方法。该方法可以保护神经网络的关键权重并保持其泛化能力,在不影响硬件效率的前提下,有效降低了语言模型部署的成本。
Jun, 2023
该论文提出了一种混合精度搜索方法,该方法通过硬件无关的可微分搜索算法和硬件感知优化算法来寻找特定硬件目标上的优化后的混合精度配置,以减少模型大小、延迟并保持统计准确性,该方法在MobileNetV1和MobileNetV2上进行了评估,在具有不同硬件特性的多核RISC-V微控制器平台上展示了与8位模型相比高达28.6%的端到端延迟降低,在没有对子字节算术支持的系统上也能实现加速,同时在代表延迟的减少二进制运算次数上,我们的方法也表现出优越性。
Jul, 2023
我们提出了一种适用于训练量化神经网络(QNNs)以避免在推断过程中使用低精度累加器时的溢出问题的新颖的权重量化方法——accumulator-aware quantization(A2Q)。A2Q引入了一种受权重归一化启发的独特公式,根据我们导出的累加器比特宽度限制来约束模型权重的L1范数。因此,在训练低精度累加器的QNNs时,A2Q还本质上促进了非结构化权重稀疏性以保证溢出避免。我们将该方法应用于基于深度学习的计算机视觉任务,以表明A2Q可以在保持与浮点基准相竞争的模型准确性的同时,训练适用于低精度累加器的QNNs。在我们的评估中,我们考虑了A2Q对通用平台和可编程硬件的影响。然而,我们主要针对在FPGAs上部署模型,因为它们可以被编程以充分利用定制累加器比特宽度。我们的实验表明,累加器比特宽度显著影响基于FPGA的加速器的资源效率。在我们的基准测试中,A2Q相比于32位累加器对应物平均提供高达2.3倍的资源利用率降低,同时保持99.2%的浮点模型准确性。
Aug, 2023
卷积神经网络(CNN)的能效和内存占用取决于权重量化策略和映射,通过启用丰富的混合量化方案,我们可以找到更有效利用硬件资源的映射,从而在精度、能耗和内存要求之间取得更好的平衡。通过扩展Timeloop工具,提出了一种高效的多目标优化算法,实证了该方法在两种CNN和两种加速器上的有效性,并证明了相对于未经精心优化的CNN实现,可以实现高达37%的能量节省,而无需降低精度。
Apr, 2024
本研究针对大型语言模型的优化问题,评估了后训练量化(PTQ)和量化感知训练(QAT)两种量化技术。研究提出了一种新的理论框架,可以通过层灵敏度和权重方差来推导最佳比特分配策略,实验表明该方法可在显著降低模型大小和计算成本的同时保持性能。最显著的发现是,该量化方法在边缘设备上实现了大幅度的吞吐量提升和功耗降低。
Nov, 2024