4位精度的必要性:k位推断缩放定律
使用浮点量化在大型语言模型中表现出色,尤其是FP8和FP4的浮点数,在模型参数超过十亿时性能优势更加明显。对于权重量化来说,FP4与INT4相比表现出可比、甚至更好的性能,简化了在支持FP的硬件上部署。对于通过权重和激活之间差异引起的精度对齐开销,我们提出了两个权重量化的缩放约束条件,对性能的影响微乎其微,与标准的W4A8模型相比。此外,我们还结合了低秩补偿(LoRC)策略来增强量化方法,特别适用于较小的模型。研究结果强调了浮点量化在大型语言模型中的巨大潜力,为资源受限环境中的高效部署铺平了道路。
Jul, 2023
通过使用块量化技术,本研究实现了基于大型语言模型(LLMs)的几乎无损6位量化,与浮点数基准相比算术密度增加了19倍,内存密度增加了5倍,超过了之前8位量化的先前技术。同时,介绍了子8位LLM量化的关键见解,包括激活和权重分布之间的不匹配、最佳的微调策略,以及LLMs统计属性中固有的较低量化粒度。该研究提出的框架将在发表后开源。
Oct, 2023
大多数大型生成模型的推理计算可以通过将权重和激活值均转换为4位来加速计算,同时保持良好的准确性;我们通过名为QUIK的混合量化策略实现这一目标,该策略将大多数权重和激活值压缩为4位,将一些异常值保留在较高精度;关键是,我们的方案专注于计算效率,提供高效的逐层GPU内核,相对于FP16执行,端到端的吞吐量可提高最多3.1倍。
Oct, 2023
本研究审查了大型语言模型中的4位量化方法,重点关注GPTQ在零样本任务中的过拟合问题和限制。我们扩展了任务范围,涵盖了生成类别,如代码生成和抽象概括,发现INT4量化在其中显著性能不佳。然而,转向高精度格式如FP6却面临挑战,因为现有AI硬件上缺乏复杂的集成和系统加速策略导致性能较差,常被忽视。实验结果显示,FP6,即便采用粗粒度的量化方案,也能在各种算法和任务上表现出色,展示了它在准确性和多功能性方面的优势。值得注意的是,使用FP6量化,codestar-15B模型在代码生成方面表现与其FP16对等,对于较小的模型如406M,与摘要生成的基准模型非常接近,而INT4无法达到这种性能。为了更好适应各种AI硬件并实现最佳系统性能,我们提出了一种用于FP6的新颖4+2设计,以达到与最先进的INT4精细的量化相似的时延。通过我们的设计,FP6可以成为当前LLMs中使用的4位量化方法的有希望的解决方案。
Dec, 2023
该研究论文通过提出一种新型的整数化后训练量化框架(I-LLM),解决了大语言模型在部署边缘和云设备上仍需要大量浮点运算的问题。实验证明,I-LLM在保持准确性的前提下,可以以W4A4进行操作,优于其他非整数量化方法。
May, 2024
本文研究了在达到特定准确度或困惑度目标时,混合量化对大型语言模型所需的高精度计算量。提出了量化比这一关键指标,通过实验发现,规模越大的模型在保持性能方面表现越佳,并且采用更细粒度的混合精度量化可进一步提升量化比,这为未来的AI硬件设计和高效AI算法的发展提供了重要见解。
Oct, 2024
本研究解决了1位大型语言模型(LLM)中推理成本高且性能下降的问题。通过引入BitNet a4.8,采用混合量化和稀疏化策略,实现在注意力和前馈网络层中使用4位激活,并对中间状态进行稀疏化,经过大量实验,证明其推理速度更快且与BitNet b1.58相当的性能,提高了大型LLM的效率。
Nov, 2024
本研究针对大型语言模型的优化问题,评估了后训练量化(PTQ)和量化感知训练(QAT)两种量化技术。研究提出了一种新的理论框架,可以通过层灵敏度和权重方差来推导最佳比特分配策略,实验表明该方法可在显著降低模型大小和计算成本的同时保持性能。最显著的发现是,该量化方法在边缘设备上实现了大幅度的吞吐量提升和功耗降低。
Nov, 2024
本研究解决了在扩展上下文长度的大语言模型推理中,低精度量化导致性能下降的问题。提出的不对称微缩4位浮点格式(AMXFP4)利用不对称共享尺度减少激活异常值的影响,显著提高了4位量化精度。AMXFP4在多轮对话、长期推理和视觉问答等多种任务中,表现优于传统方法,支持无校准的稳健推理。
Nov, 2024