FPTQ:大型语言模型的细粒度后训练量化
通过数万次的零-shot实验,我们对后期训练量化(PTQ)的各种组成成分和效应进行了全面的研究,发现细粒度量化和PTQ方法是获得良好准确性所必需的,并且粗粒度量化的高比特位(例如,5比特)比非常细粒度量化的低比特位(例如,4比特)更强大。
Mar, 2023
本文提出了一种新的基于重新排序的量化方法 RPTQ,用于解决大规模语言模型序列的激活范围之间的不同,从而将其缩小到 3 位激活,减少存储和计算的开销。
Apr, 2023
本研究采用Coordinate Descent(CD)技术,通过QuantEase分层量化框架对Large Language Models(LLMs)进行后训练量化,包括离群值感知算法,以实现近乎3位量化并提高模型性能。
Sep, 2023
在本文中,我们介绍了一种称为norm tweaking的技术,可以作为当前PTQ方法的插件使用,以实现高精度并且具有成本效益的模型压缩。通过校准数据生成和通道级距离约束来更新归一化层的权重,我们的方法在权重量化和权重与激活联合量化方面取得了显著的改进,在2位量化情况下甚至达到与浮点数模型相同的精度水平。我们的简单有效的方法使其在实际应用中更加实用。
Sep, 2023
大型语言模型具有卓越的性能,但是它们带来了重大的计算和存储成本。用8位权重和激活(W8A8)量化和超低比特量化进行权重和激活量化的AWEQ方法使两者的量化难度达到平衡,并实现了最大化的性能。
Nov, 2023
该研究探讨了大型语言模型的后训练量化,特别是4位权重和8位激活(W4A8)量化,以提高计算效率,介绍了激活量化感知的缩放(AQAS)和序列长度感知的校准(SLAC)等创新技术,并引入了整数和非规格化表示的混合数据格式(dINT)来解决W4A8量化中的下溢问题,并通过对LLMs的严格评估证明这些技术显著提高了任务准确度,并且与完整精度模型相当,通过与dINT兼容的算术单元的开发,进一步证实了该方法相对于8位整数MAC单元可以提升2倍硬件效率。
Nov, 2023
QQQ是一种基于四位权重和八位激活的优质量化方法,通过自适应平滑和基于Hessian的补偿显著提高了量化模型的性能,并通过精心设计的W4A8 GEMM核心增加了推理速度。与现有的最新LLM量化方法相当的性能,显著加速推理,与FP16、W8A8和W4A16相比,速度提升分别达到了2.24倍、2.10倍和1.25倍。
Jun, 2024
通过使用低秩权重缩放矩阵代替常规的全权重缩放矩阵,我们提出了一种低秩量化方法(LRQ),可以在大规模语言模型中取得更高的压缩性能和推断效率,提高量化语言模型的泛化能力。
Jul, 2024
本研究解决了后训练量化过程中大规模语言模型(LLM)激活量化后的准确性保持挑战。通过引入“量化内核”概念,研究发现减少量化内核比例有助于提高量化LLM的精度,特别是CrossQuant方法在压缩过程中显著降低了量化内核,为OPT和LLaMA模型达到更优的准确性和模型压缩效果。
Oct, 2024
本研究针对大型语言模型的优化问题,评估了后训练量化(PTQ)和量化感知训练(QAT)两种量化技术。研究提出了一种新的理论框架,可以通过层灵敏度和权重方差来推导最佳比特分配策略,实验表明该方法可在显著降低模型大小和计算成本的同时保持性能。最显著的发现是,该量化方法在边缘设备上实现了大幅度的吞吐量提升和功耗降低。
Nov, 2024