多点后训练量化:混合精度的实现而无需混合精度
量化方法在深度神经网络的高效部署中变得至关重要,深度神经网络经常需要量化以便在计算中使用固定点操作代替浮点操作。本文探讨了一种基于梯度的后训练量化方法(GPTQ),证明了该方法在选择权重、特征增强、校准集等方面具有一定鲁棒性,并提出了设计更高效、可扩展的 GPTQ 方法的准则,最后还提出了一种基于重要性的混合精度技术,这些准则和技术共同促进了已有的 GPTQ 方法和网络的性能改进,为设计可扩展且有效的量化方法开辟了新的可能。
Aug, 2023
本文提出了一种基于分段线性量化的方法,通过最小化量化误差来确定最优的分界点,解决了现有量化方法在低位宽下性能显著下降的问题,在图像分类、语义分割和物体检测等方面表现优异。
Jan, 2020
采用离散约束优化问题和二阶泰勒展开,提出了解决深度神经网络中多精度量化问题的一种高效算法,并在 ImageNet 数据集和各种网络体系结构上得出了比现有方法更优的结果。
Oct, 2021
本研究提出了一种针对神经网络量化的方法,该方法通过量化权重来降低计算成本、内存占用和功耗,并促进权重的稀疏性,使用本方法在 ImageNet 上测试显示准确性的损失很小。
Jan, 2022
在这项研究中,我们通过对模型权重和激活函数使用 3 至 8 位的浮点数和整数量化方案,比较了浮点数量化和整数量化的适用性,验证了低精度 minifloats 在一系列精度 - 准确度权衡中相对于整数量化的有效性,并通过 FPGA 型号评估结果,表明整数量化通常是优选选择。
Nov, 2023
提出了一种混合精度后训练量化(PTQ)方法,使用二阶信息和层间依赖关系指导双分搜索,以在用户可配置的模型准确度降低范围内找到量化配置。 该方法可以降低内存占用并提高延迟,同时保持模型准确性。
Jun, 2023
本文提出一种新的深度神经网络固定点量化框架 (FxP-QNet),该框架可以在保证网络精度的前提下,根据网络对低精度的需求动态地设计不同精度的量化级别。在基准测试 (ImageNet) 中,模型的内存需求得到了 7.16 倍 - 10.36 倍的压缩,同时准确率只有不到 2% 的损失。
Mar, 2022
通过精度分配方法,实现神经网络中所有参数的最小化,从而实现固定点训练。针对 CIFAR-10,CIFAR-100 和 SVHN 数据集,对四个网络进行实验验证,证实此方法具有接近最优的精度分配,可以与其他固定点神经网络设计相比较。(The precision assignment methodology reduces the complexity of fixed-point training for neural networks, and its optimality is validated empirically for various datasets and network designs)
Dec, 2018