AFPQ: 非对称浮点量化用于 LLMs
使用浮点量化在大型语言模型中表现出色,尤其是 FP8 和 FP4 的浮点数,在模型参数超过十亿时性能优势更加明显。对于权重量化来说,FP4 与 INT4 相比表现出可比、甚至更好的性能,简化了在支持 FP 的硬件上部署。对于通过权重和激活之间差异引起的精度对齐开销,我们提出了两个权重量化的缩放约束条件,对性能的影响微乎其微,与标准的 W4A8 模型相比。此外,我们还结合了低秩补偿(LoRC)策略来增强量化方法,特别适用于较小的模型。研究结果强调了浮点量化在大型语言模型中的巨大潜力,为资源受限环境中的高效部署铺平了道路。
Jul, 2023
本研究比较研究了 INT 和 FP 低位量化在 LLMs 中的优劣,发现由于张量分布的复杂性和异质性,最优量化格式因层而异,提出了 MoFQ,这种简单易行的方法在各种任务中取得了最新的最佳结果,并且在不引入硬件开销的情况下具有显著的性能改进。
May, 2023
提出了一种基于激活函数的、硬件友好型的低比特权重量化方法。该方法可以保护神经网络的关键权重并保持其泛化能力,在不影响硬件效率的前提下,有效降低了语言模型部署的成本。
Jun, 2023
通过自适应通道重组技术,QLLM 提出了一种准确高效的低精度模型量化方法,实现了对大规模语言模型的低精度量化,并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。
Oct, 2023
最近大规模语言模型 (LLMs) 的兴起导致了对降低精度的 LLMs 的增加,为了解决资源限制和促进民主化进程,我们提出了 INT-FP-QSim: 一个开源模拟器,可以在不同的数值精度和格式下灵活评估 LLMs 和视觉转换器。通过我们的模拟器,我们调查了不同数值格式对 4 位权重和 4 位或 8 位激活的 LLMs 和视觉转换器性能的影响,并比较了 Adaptive Block Floating Point、SmoothQuant、GPTQ 和 RPTQ 等最近提出的方法在模型性能上的表现。我们希望 INT-FP-QSim 能够使研究人员灵活地模拟不同精度的模型,以支持进一步的 LLMs 和视觉转换器的量化研究。
Jul, 2023
该研究探讨了大型语言模型的后训练量化,特别是 4 位权重和 8 位激活(W4A8)量化,以提高计算效率,介绍了激活量化感知的缩放(AQAS)和序列长度感知的校准(SLAC)等创新技术,并引入了整数和非规格化表示的混合数据格式(dINT)来解决 W4A8 量化中的下溢问题,并通过对 LLMs 的严格评估证明这些技术显著提高了任务准确度,并且与完整精度模型相当,通过与 dINT 兼容的算术单元的开发,进一步证实了该方法相对于 8 位整数 MAC 单元可以提升 2 倍硬件效率。
Nov, 2023
该研究论文通过提出一种新型的整数化后训练量化框架 (I-LLM),解决了大语言模型在部署边缘和云设备上仍需要大量浮点运算的问题。实验证明,I-LLM 在保持准确性的前提下,可以以 W4A4 进行操作,优于其他非整数量化方法。
May, 2024
本研究审查了大型语言模型中的 4 位量化方法,重点关注 GPTQ 在零样本任务中的过拟合问题和限制。我们扩展了任务范围,涵盖了生成类别,如代码生成和抽象概括,发现 INT4 量化在其中显著性能不佳。然而,转向高精度格式如 FP6 却面临挑战,因为现有 AI 硬件上缺乏复杂的集成和系统加速策略导致性能较差,常被忽视。实验结果显示,FP6,即便采用粗粒度的量化方案,也能在各种算法和任务上表现出色,展示了它在准确性和多功能性方面的优势。值得注意的是,使用 FP6 量化,codestar-15B 模型在代码生成方面表现与其 FP16 对等,对于较小的模型如 406M,与摘要生成的基准模型非常接近,而 INT4 无法达到这种性能。为了更好适应各种 AI 硬件并实现最佳系统性能,我们提出了一种用于 FP6 的新颖 4+2 设计,以达到与最先进的 INT4 精细的量化相似的时延。通过我们的设计,FP6 可以成为当前 LLMs 中使用的 4 位量化方法的有希望的解决方案。
Dec, 2023