大规模模型量化的艺术与科学:全面概述
本文概述了卷积神经网络量化技术,研究发现通过对权重和激活进行逐通道和逐层量化,即使在不支持8位运算的情况下,将权重量化为8位可以将模型大小降低4倍,并且分类的准确率可以达到浮点型卷积神经网络的98%。作者介绍了针对CPU和DSP的量化网络的等待时间基准测试,并观察到相比于CPU上的浮点运算,量化实现的速度提高了2倍至3倍。作者提出了一种通过TensorFlow和TensorFlowLite进行卷积网络量化的工具,并回顾了用于量化训练的最佳实践。作者建议,对于硬件加速和内核优化,应将逐通道量化的权重和逐层量化的激活作为首选量化方案,并提议未来处理器和硬件加速器用于优化推断时支持4、8和16位的精度。
Jun, 2018
本文旨在综述深度神经网络计算中数值量化的方法和优缺点,囊括了使用固定整数值的优点、及降低4x到8x等现实应用中的实际结果,以及占用更少的内存和降低延迟的潜力。
Mar, 2021
介绍了现代神经网络中减少计算成本和提高性能的两种量化算法: Post-Training Quantization和Quantization-Aware Training。
Jun, 2021
SmoothQuant是一个训练免费的精度保持、通用的后训练量化解决方案,用于大型语言模型(LLMs),通过平滑激活异常值并在权重和激活之间进行数学上等效的变换以迁移量化难度,可以实现LLMs的8位权重和激活(W8A8)量化,同时提高硬件效率,以较小的精度损失实现高达2倍的内存减少和1.56倍的加速,是一个可降低硬件成本、民主化LLMs的一站式解决方案。
Nov, 2022
量化方法在深度神经网络的高效部署中变得至关重要,深度神经网络经常需要量化以便在计算中使用固定点操作代替浮点操作。本文探讨了一种基于梯度的后训练量化方法(GPTQ),证明了该方法在选择权重、特征增强、校准集等方面具有一定鲁棒性,并提出了设计更高效、可扩展的GPTQ方法的准则,最后还提出了一种基于重要性的混合精度技术,这些准则和技术共同促进了已有的GPTQ方法和网络的性能改进,为设计可扩展且有效的量化方法开辟了新的可能。
Aug, 2023
准确的量化是语言模型的关键问题之一,我们研究了激活量化中的异常通道现象,并提出了一种调节输入和输出的策略,通过量化感知训练和激活峰度正则化来实现精确的4位参数量化。与权重后训练量化相结合,我们的方法可以获得与标准精度基准相竞争的W4A4模型。
Apr, 2024
使用更少的位数表示模型权重和激活,量化降低了内存使用、计算需求和延迟。我们研究了量化神经网络的泛化性质,首先通过理论模型表明了量化作为一种正则化的功能,其次通过与损失函数曲线陡峭度与泛化的相关性的研究,提出了一个近似限制量化模型泛化性的方法,通过在CIFAR-10、CIFAR-100和ImageNet数据集上对卷积和Transformer模型进行超过2000次实验进行验证。
Apr, 2024
大规模的语言模型通过权重量化技术 LeanQuant 可以有效地减少解码延迟和内存需求,在4位、3位和2位区域与竞争性基准相比表现良好。
Jul, 2024
通过使用低秩权重缩放矩阵代替常规的全权重缩放矩阵,我们提出了一种低秩量化方法(LRQ),可以在大规模语言模型中取得更高的压缩性能和推断效率,提高量化语言模型的泛化能力。
Jul, 2024