AFPQ: 非对称浮点量化用于LLMs
本研究比较研究了INT和FP低位量化在LLMs中的优劣,发现由于张量分布的复杂性和异质性,最优量化格式因层而异,提出了MoFQ,这种简单易行的方法在各种任务中取得了最新的最佳结果,并且在不引入硬件开销的情况下具有显著的性能改进。
May, 2023
最近大规模语言模型(LLMs)的兴起导致了对降低精度的LLMs的增加,为了解决资源限制和促进民主化进程,我们提出了INT-FP-QSim: 一个开源模拟器,可以在不同的数值精度和格式下灵活评估LLMs和视觉转换器。通过我们的模拟器,我们调查了不同数值格式对4位权重和4位或8位激活的LLMs和视觉转换器性能的影响,并比较了Adaptive Block Floating Point、SmoothQuant、GPTQ和RPTQ等最近提出的方法在模型性能上的表现。我们希望INT-FP-QSim能够使研究人员灵活地模拟不同精度的模型,以支持进一步的LLMs和视觉转换器的量化研究。
Jul, 2023
使用浮点量化在大型语言模型中表现出色,尤其是FP8和FP4的浮点数,在模型参数超过十亿时性能优势更加明显。对于权重量化来说,FP4与INT4相比表现出可比、甚至更好的性能,简化了在支持FP的硬件上部署。对于通过权重和激活之间差异引起的精度对齐开销,我们提出了两个权重量化的缩放约束条件,对性能的影响微乎其微,与标准的W4A8模型相比。此外,我们还结合了低秩补偿(LoRC)策略来增强量化方法,特别适用于较小的模型。研究结果强调了浮点量化在大型语言模型中的巨大潜力,为资源受限环境中的高效部署铺平了道路。
Jul, 2023
在本文中,我们介绍了一种称为norm tweaking的技术,可以作为当前PTQ方法的插件使用,以实现高精度并且具有成本效益的模型压缩。通过校准数据生成和通道级距离约束来更新归一化层的权重,我们的方法在权重量化和权重与激活联合量化方面取得了显著的改进,在2位量化情况下甚至达到与浮点数模型相同的精度水平。我们的简单有效的方法使其在实际应用中更加实用。
Sep, 2023
在这项研究中,我们通过对模型权重和激活函数使用3至8位的浮点数和整数量化方案,比较了浮点数量化和整数量化的适用性,验证了低精度minifloats在一系列精度-准确度权衡中相对于整数量化的有效性,并通过FPGA型号评估结果,表明整数量化通常是优选选择。
Nov, 2023
该研究论文通过提出一种新型的整数化后训练量化框架(I-LLM),解决了大语言模型在部署边缘和云设备上仍需要大量浮点运算的问题。实验证明,I-LLM在保持准确性的前提下,可以以W4A4进行操作,优于其他非整数量化方法。
May, 2024
本研究解决了大型语言模型推理中由于内存和计算需求高而导致的应用限制,通过引入一种新型的任意位量化算法和推理框架ABQ-LLM。该框架在不同量化设置下表现出色,并能够高效实现任意精度的量化推理,显著提高了 GPU 上低比特宽度执行的性能。最重要的发现是,ABQ-LLM在LLaMA-7B模型上的 W2*A8 量化配置下,获得了比以往方法更高的加速和内存压缩效果。
Aug, 2024
本研究解决了在扩展上下文长度的大语言模型推理中,低精度量化导致性能下降的问题。提出的不对称微缩4位浮点格式(AMXFP4)利用不对称共享尺度减少激活异常值的影响,显著提高了4位量化精度。AMXFP4在多轮对话、长期推理和视觉问答等多种任务中,表现优于传统方法,支持无校准的稳健推理。
Nov, 2024