本文提出了一种快速随机算法来对完全训练的神经网络权重进行量化,建立了全网络错误边界,证明了过参数化程度增加时相对平方量化误差呈线性衰减,同时展示了在每个权重上仅使用 O (log (log N)) 位可以达到等同于无穷字母表情况下的错误边界。
Sep, 2023
量化方法在深度神经网络的高效部署中变得至关重要,深度神经网络经常需要量化以便在计算中使用固定点操作代替浮点操作。本文探讨了一种基于梯度的后训练量化方法(GPTQ),证明了该方法在选择权重、特征增强、校准集等方面具有一定鲁棒性,并提出了设计更高效、可扩展的 GPTQ 方法的准则,最后还提出了一种基于重要性的混合精度技术,这些准则和技术共同促进了已有的 GPTQ 方法和网络的性能改进,为设计可扩展且有效的量化方法开辟了新的可能。
Aug, 2023
介绍了现代神经网络中减少计算成本和提高性能的两种量化算法: Post-Training Quantization 和 Quantization-Aware Training。
Jun, 2021
本文提出一种新的深度神经网络固定点量化框架 (FxP-QNet),该框架可以在保证网络精度的前提下,根据网络对低精度的需求动态地设计不同精度的量化级别。在基准测试 (ImageNet) 中,模型的内存需求得到了 7.16 倍 - 10.36 倍的压缩,同时准确率只有不到 2% 的损失。
Mar, 2022
本文提出了一种基于分段线性量化的方法,通过最小化量化误差来确定最优的分界点,解决了现有量化方法在低位宽下性能显著下降的问题,在图像分类、语义分割和物体检测等方面表现优异。
Jan, 2020
提出了一种硬件意识的量化网络参数化方法 —— 量化感知微调(QFT),可以通过联合端对端微调实现一步到位的量化,获得与最优结果相当的 4 位权重量化结果。
Dec, 2022
通过高精度量化训练方法,减少模型大小和推理速度,提高 FPGA 部署的低延迟和低功耗神经网络的资源利用率,同时保持准确性。
May, 2024
本篇论文研究了深度神经网络的低精度模型的训练方法,探讨了在小型设备上训练深度神经网络的难点,提出了一种理论视角下的量化训练方法,并探索了非凸问题下的算法行为模型。
Jun, 2017
通过数万次的零 - shot 实验,我们对后期训练量化 (PTQ) 的各种组成成分和效应进行了全面的研究,发现细粒度量化和 PTQ 方法是获得良好准确性所必需的,并且粗粒度量化的高比特位(例如,5 比特)比非常细粒度量化的低比特位(例如,4 比特)更强大。
Mar, 2023
本论文提出了一个用于分析全量化训练算法的统计框架,并探讨了梯度量化对其收敛性的影响。作者开发了两个新的梯度量化器,并展示了这些量化器相对于现有的每个张量量化器具有更小的方差。
Oct, 2020