线性线性模型中的准确分块量化
使用浮点量化在大型语言模型中表现出色,尤其是 FP8 和 FP4 的浮点数,在模型参数超过十亿时性能优势更加明显。对于权重量化来说,FP4 与 INT4 相比表现出可比、甚至更好的性能,简化了在支持 FP 的硬件上部署。对于通过权重和激活之间差异引起的精度对齐开销,我们提出了两个权重量化的缩放约束条件,对性能的影响微乎其微,与标准的 W4A8 模型相比。此外,我们还结合了低秩补偿(LoRC)策略来增强量化方法,特别适用于较小的模型。研究结果强调了浮点量化在大型语言模型中的巨大潜力,为资源受限环境中的高效部署铺平了道路。
Jul, 2023
本研究比较研究了 INT 和 FP 低位量化在 LLMs 中的优劣,发现由于张量分布的复杂性和异质性,最优量化格式因层而异,提出了 MoFQ,这种简单易行的方法在各种任务中取得了最新的最佳结果,并且在不引入硬件开销的情况下具有显著的性能改进。
May, 2023
通过使用块量化技术,本研究实现了基于大型语言模型(LLMs)的几乎无损 6 位量化,与浮点数基准相比算术密度增加了 19 倍,内存密度增加了 5 倍,超过了之前 8 位量化的先前技术。同时,介绍了子 8 位 LLM 量化的关键见解,包括激活和权重分布之间的不匹配、最佳的微调策略,以及 LLMs 统计属性中固有的较低量化粒度。该研究提出的框架将在发表后开源。
Oct, 2023
本文在不重新训练的情况下测试了几种经典的卷积神经网络 (CNN) 模型,验证了使用块浮点算法 (BFP) 在 CNN 加速器中定义字宽的效果,并探究了理论计算误差,提出了噪声信号比(NSR)的上限,为基于 BFP 的 CNN 引擎设计提供了有价值的指导。
Sep, 2017
该研究论文通过提出一种新型的整数化后训练量化框架 (I-LLM),解决了大语言模型在部署边缘和云设备上仍需要大量浮点运算的问题。实验证明,I-LLM 在保持准确性的前提下,可以以 W4A4 进行操作,优于其他非整数量化方法。
May, 2024
使用 FlattenQuant 方法在大型语言模型中实现低比特量化,通过将张量中的大通道展平以显著减少张量的最大值,本方法能够直接使用 4 位来实现 LLMs 中线性层计算的 48.29%,并使用 8 位来处理其余层,从而实现高达 2 倍的速度提升和 2.3 倍的内存减少,而准确度损失微不足道。
Feb, 2024
通过自适应通道重组技术,QLLM 提出了一种准确高效的低精度模型量化方法,实现了对大规模语言模型的低精度量化,并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。
Oct, 2023