基于硬件的混合精度量化自动机器学习
本文介绍了一种基于深度强化学习的硬件感知自适应量化方法,将硬件加速器的反馈置于设计循环中以自动确定量化策略,该方法可以为不同的神经网络架构和硬件架构专门量身定制量化策略。与传统方法相比,该方法可以将延迟降低 1.4-1.95 倍,能量消耗降低 1.9 倍,并提供了不同量化策略的含义,为神经网络架构设计和硬件架构设计提供了新的思路。
Nov, 2018
本文提出了一种在芯片上进行硬件感知的混合精度量化(OHQ)框架,通过构建在芯片上的量化感知管道(OQA)和基于掩码的量化估计(MQE)技术,实现了从硬件感知的混合精度量化。通过合成网络和硬件的见解,通过线性规划获得了优化的位宽配置。OHQ 在完全无需额外的计算设备和数据访问的情况下,对各种体系结构和压缩比率进行了量化推理,为 ResNet-18 和 MobileNetV3 分别实现了 70%和 73%的准确率,并且相较于部署中的 INT8,减少了 15~30%的延迟。
Sep, 2023
通过联合采用修剪和量化,利用强化学习探索与低能耗相关的设计空间及其精度损失,我们提出了一种自动压缩深度神经网络的硬件感知框架,能够在嵌入式深度神经网络加速器上实现能耗最小化。实验结果表明,相比现有方法,我们的框架平均能耗降低 39%,平均精度损失为 1.7%。
Dec, 2023
本研究提出了一种名为 DQMQ 的新型混合精度量化框架,可动态地适应不同数据质量,通过学习一个决策规则,它被建模为一种混合强化学习任务,该任务结合了基于模型的策略优化和监督量化训练。通过在混合质量的图像数据集上进行训练,DQMQ 可以在面对不均匀输入质量时隐式地选择每个层的最适宜比特宽度,在各种基准数据集和网络上的大量实验表明,DQMQ 比现有的固定 / 混合精度量化方法更为优越。
Feb, 2023
本论文提出了一种基于分层深度强化学习的自动量化技术 AutoQ,可以自动搜索每个权重核的量化位宽,以及每个激活层的另一个量化位宽,并极大地提高了卷积神经网络的推断性能,同时保持了推断精度。
Feb, 2019
本文提出一种名为 AutoQNN 的端到端框架,通过引入量化方案搜索(QSS)、量化精度学习(QPL)和量化架构生成(QAG)三种技术,自动实现对不同深度神经网络(DNN)模型的不同层进行不同方案和不同精度的量化,无需人工干预,实现对深度神经网络的自动量化。实验表明,AutoQNN 相对于现有的量化算法在准确性和效率上都表现得更优秀。
Apr, 2023
本文介绍了一种利用分层、分参数类型的自动量化过程来设计深度神经网络模型的方法,旨在使模型能够在芯片上进行高精度、纳秒级推理和完全自动化部署。这对于 CERN 大型强子对撞机中的事件选择过程至关重要,其中资源严格限制,需要一种纳秒级的推理和降低 50 倍的资源消耗。
Jun, 2020
本研究介绍了一种基于 Hessian 矩阵的自适应量化方法(HAWQ),可实现神经网络中各层的不同量化精度,并通过对 ResNet20、Inception-V3、ResNet50 和 SqueezeNext 模型的评测结果表明,与先前的方法相比,HAWQ 可以减小模型大小,同时提高精度。
Apr, 2019
该论文提出了一种混合精度搜索方法,该方法通过硬件无关的可微分搜索算法和硬件感知优化算法来寻找特定硬件目标上的优化后的混合精度配置,以减少模型大小、延迟并保持统计准确性,该方法在 MobileNetV1 和 MobileNetV2 上进行了评估,在具有不同硬件特性的多核 RISC-V 微控制器平台上展示了与 8 位模型相比高达 28.6% 的端到端延迟降低,在没有对子字节算术支持的系统上也能实现加速,同时在代表延迟的减少二进制运算次数上,我们的方法也表现出优越性。
Jul, 2023
本研究提出了一个通过利用端到端深度强化学习框架 (ReLeQ) 来自动化发现量化级别的方法,该方法可以在保持准确性的同时,将 DNN 的计算和存储成本最小化。通过对多个神经网络进行实验,结果表明,这种自动化方法最大限度地保留了准确性 (=<0.3% 的损失),并使传统硬件的速度提高了 2.2 倍,同时,与 8 位运行相比,定制的 DNN 加速器的速度提高了 2.0 倍和节能。
Nov, 2018