本文介绍了一种名为BRECQ的新型PTQ框架,通过重构神经网络的组件来将PTQ的位宽降至INT2,并将混合精度技术结合到框架中。对多种手工制作和搜索的神经体系结构进行了广泛的实验,证明了PTQ可以实现比使用QAT的4位ResNet和MobileNetV2更快的速度制作量化模型。
Feb, 2021
介绍了现代神经网络中减少计算成本和提高性能的两种量化算法: Post-Training Quantization和Quantization-Aware Training。
Jun, 2021
本文提出了一种新的方法,即将activation quantization纳入post-training quantization中,随机放弃激活量化,从而将PTQ的极限推向了2位。最终结果表明,QDROP在图像分类、目标检测和文本分类任务中具有优异的表现,成为了PTQ现有技术中新的最佳方法。
Mar, 2022
本文研究神经网络的量化问题,发现在低比特率下,深度可分离网络(如MobileNets,EfficientNets)量化训练中,量化权重可能出现意外震荡,导致在推断过程中统计错误、在训练过程中增加噪声,进而显著降低准确性。作者提出了两种新的QAT算法,分别是自适应调节震荡和迭代冻结权重,相较已有算法都表现出了更好的效果。
提出了一种硬件意识的量化网络参数化方法——量化感知微调(QFT),可以通过联合端对端微调实现一步到位的量化,获得与最优结果相当的4位权重量化结果。
Dec, 2022
研究了量化感知训练中的重量振荡,发现可学习缩放因子会加剧重量振荡,并因此提出三种技术有效地减轻重量振荡并在Imagenet上显著提高了准确率。
Feb, 2023
通过数万次的零-shot实验,我们对后期训练量化(PTQ)的各种组成成分和效应进行了全面的研究,发现细粒度量化和PTQ方法是获得良好准确性所必需的,并且粗粒度量化的高比特位(例如,5比特)比非常细粒度量化的低比特位(例如,4比特)更强大。
Mar, 2023
量化方法在深度神经网络的高效部署中变得至关重要,深度神经网络经常需要量化以便在计算中使用固定点操作代替浮点操作。本文探讨了一种基于梯度的后训练量化方法(GPTQ),证明了该方法在选择权重、特征增强、校准集等方面具有一定鲁棒性,并提出了设计更高效、可扩展的GPTQ方法的准则,最后还提出了一种基于重要性的混合精度技术,这些准则和技术共同促进了已有的GPTQ方法和网络的性能改进,为设计可扩展且有效的量化方法开辟了新的可能。
Aug, 2023
研究通过离线偏差校正技术改善了量化后的softmax,在资源受限的边缘设备上推理能力得到了显著的准确性提升。
Sep, 2023
采用了一种创新的PTQ算法COMQ,通过逐层坐标最小化重构误差,使得精简后的模型在不损失原始准确性的情况下高效部署
Mar, 2024