研究混合精度量化的方法,使用 Hessian 分析来解决由于过度量化而导致的模型泛化下降问题,并提出了 HAWQV2 来解决先前 HAWQV1 中出现的三个主要限制,包括使用平均值作为敏感度度量的改进版本,使用 Pareto 前沿方法进行自动性能最优的混合精度比特精度选择以及考虑混合精度激活量化。进行了对象检测,并获得了最新的最优结果。
Nov, 2019
本研究介绍了一种基于 Hessian 矩阵的自适应量化方法(HAWQ),可实现神经网络中各层的不同量化精度,并通过对 ResNet20、Inception-V3、ResNet50 和 SqueezeNext 模型的评测结果表明,与先前的方法相比,HAWQ 可以减小模型大小,同时提高精度。
Apr, 2019
研究深度神经网络的激活量化问题,提出了一种半波高斯量化器(HWGQ)来近似 ReLU 非线性激活函数,并探讨了多种反向逼近方式以解决梯度失配问题,实现的量化网络 HWGQ-Net 的性能比以前的低精度网络如二进制权重和二位量化激活的网络接近全精度网络(如 AlexNet,ResNet,GoogLeNet 和 VGG-Net)。
Feb, 2017
利用 Hessian-aware quantization (HAWQ) 来量化神经网络(NNs),Quantized Open Neural Network Exchange(QONNX)中间表示和 hls4ml 到 FPGA 和 ASIC 固件的工具流程将 NNs 高效地实现在硬件上,并在粒子物理应用程序中展示了这个工作流程,包括使用混合精度 NN 分类器对 HLC 质子 - 质子碰撞中的高动量粒子喷流进行优化。
Apr, 2023
通过高精度量化训练方法,减少模型大小和推理速度,提高 FPGA 部署的低延迟和低功耗神经网络的资源利用率,同时保持准确性。
May, 2024
提出了一种基于分布感知的量化方案(DAQ)用于超低精度的训练无需的神经网络量化,可以减少图像超分辨率的计算成本,并超越目前最先进的图像超分辨率网络。
Dec, 2020
提出了一种基于激活函数的、硬件友好型的低比特权重量化方法。该方法可以保护神经网络的关键权重并保持其泛化能力,在不影响硬件效率的前提下,有效降低了语言模型部署的成本。
Jun, 2023
本研究提出了一种针对权重和激活值分别进行的深度学习量化技术,该技术结合了权重量化方案 SAWB 和激活量化技术 PACT,在多个模型和数据集上实现了媲美全精度网络的最新分类精度。
Jul, 2018
使用 FP16 精度代替 FP32 实现变异矩阵迹快速估算的剪枝方法可以加快计算速度并缩小 GPU 内存占用,在不影响模型性能的情况下,可以进一步使用 QAT 技术对模型进行压缩。
本文介绍了一种基于深度强化学习的硬件感知自适应量化方法,将硬件加速器的反馈置于设计循环中以自动确定量化策略,该方法可以为不同的神经网络架构和硬件架构专门量身定制量化策略。与传统方法相比,该方法可以将延迟降低 1.4-1.95 倍,能量消耗降低 1.9 倍,并提供了不同量化策略的含义,为神经网络架构设计和硬件架构设计提供了新的思路。
Nov, 2018