LLM-FP4: 4位浮点数量化变压器
本研究比较研究了INT和FP低位量化在LLMs中的优劣,发现由于张量分布的复杂性和异质性,最优量化格式因层而异,提出了MoFQ,这种简单易行的方法在各种任务中取得了最新的最佳结果,并且在不引入硬件开销的情况下具有显著的性能改进。
May, 2023
最近大规模语言模型(LLMs)的兴起导致了对降低精度的LLMs的增加,为了解决资源限制和促进民主化进程,我们提出了INT-FP-QSim: 一个开源模拟器,可以在不同的数值精度和格式下灵活评估LLMs和视觉转换器。通过我们的模拟器,我们调查了不同数值格式对4位权重和4位或8位激活的LLMs和视觉转换器性能的影响,并比较了Adaptive Block Floating Point、SmoothQuant、GPTQ和RPTQ等最近提出的方法在模型性能上的表现。我们希望INT-FP-QSim能够使研究人员灵活地模拟不同精度的模型,以支持进一步的LLMs和视觉转换器的量化研究。
Jul, 2023
使用浮点量化在大型语言模型中表现出色,尤其是FP8和FP4的浮点数,在模型参数超过十亿时性能优势更加明显。对于权重量化来说,FP4与INT4相比表现出可比、甚至更好的性能,简化了在支持FP的硬件上部署。对于通过权重和激活之间差异引起的精度对齐开销,我们提出了两个权重量化的缩放约束条件,对性能的影响微乎其微,与标准的W4A8模型相比。此外,我们还结合了低秩补偿(LoRC)策略来增强量化方法,特别适用于较小的模型。研究结果强调了浮点量化在大型语言模型中的巨大潜力,为资源受限环境中的高效部署铺平了道路。
Jul, 2023
本研究提出了一种新的基于W4A8的后训练量化方法,结合了现有的两种技术的优势,实现了4位权重量化和8位矩阵计算加速,在多个标准基准测试中获得最新的W4A8量化性能,为大型语言模型的实际应用提供了可能。
Aug, 2023
在本文中,我们介绍了一种称为norm tweaking的技术,可以作为当前PTQ方法的插件使用,以实现高精度并且具有成本效益的模型压缩。通过校准数据生成和通道级距离约束来更新归一化层的权重,我们的方法在权重量化和权重与激活联合量化方面取得了显著的改进,在2位量化情况下甚至达到与浮点数模型相同的精度水平。我们的简单有效的方法使其在实际应用中更加实用。
Sep, 2023
该研究探讨了大型语言模型的后训练量化,特别是4位权重和8位激活(W4A8)量化,以提高计算效率,介绍了激活量化感知的缩放(AQAS)和序列长度感知的校准(SLAC)等创新技术,并引入了整数和非规格化表示的混合数据格式(dINT)来解决W4A8量化中的下溢问题,并通过对LLMs的严格评估证明这些技术显著提高了任务准确度,并且与完整精度模型相当,通过与dINT兼容的算术单元的开发,进一步证实了该方法相对于8位整数MAC单元可以提升2倍硬件效率。
Nov, 2023
本研究审查了大型语言模型中的4位量化方法,重点关注GPTQ在零样本任务中的过拟合问题和限制。我们扩展了任务范围,涵盖了生成类别,如代码生成和抽象概括,发现INT4量化在其中显著性能不佳。然而,转向高精度格式如FP6却面临挑战,因为现有AI硬件上缺乏复杂的集成和系统加速策略导致性能较差,常被忽视。实验结果显示,FP6,即便采用粗粒度的量化方案,也能在各种算法和任务上表现出色,展示了它在准确性和多功能性方面的优势。值得注意的是,使用FP6量化,codestar-15B模型在代码生成方面表现与其FP16对等,对于较小的模型如406M,与摘要生成的基准模型非常接近,而INT4无法达到这种性能。为了更好适应各种AI硬件并实现最佳系统性能,我们提出了一种用于FP6的新颖4+2设计,以达到与最先进的INT4精细的量化相似的时延。通过我们的设计,FP6可以成为当前LLMs中使用的4位量化方法的有希望的解决方案。
Dec, 2023
该研究论文通过提出一种新型的整数化后训练量化框架(I-LLM),解决了大语言模型在部署边缘和云设备上仍需要大量浮点运算的问题。实验证明,I-LLM在保持准确性的前提下,可以以W4A4进行操作,优于其他非整数量化方法。
May, 2024
本研究解决了在扩展上下文长度的大语言模型推理中,低精度量化导致性能下降的问题。提出的不对称微缩4位浮点格式(AMXFP4)利用不对称共享尺度减少激活异常值的影响,显著提高了4位量化精度。AMXFP4在多轮对话、长期推理和视觉问答等多种任务中,表现优于传统方法,支持无校准的稳健推理。
Nov, 2024