AWQ:激活感知权重量化用于低限制存储压缩和加速
为了解决大型语言模型在实际应用中的内存需求和推断成本的问题,我们提出了一种高效的仅权重量化方法,通过减少内存消耗和加速推断来实现。我们引入了一种简单而有效的启发式方法,仅利用预训练模型的模型权重来确保最小质量降低。该方法适用于混合专家模型和密集模型,并且无需额外的微调。通过分析量化大型语言模型的挑战和问题,并采用自适应的量化粒度进行解决,我们展示了我们提出的方法的有效性。此外,我们实现了高效的GPU矩阵乘法和解量化算法,支持fp16或bf16激活与int8或int4权重的乘法。我们在OPT-175B和内部混合专家模型等大规模开源模型上评估了我们的方法,展示了最小的准确性损失,并在相同数量的GPU上实现了高达3.65倍的吞吐量。
Aug, 2023
该论文介绍了一种称为Dual Grained Quantization (DGQ)的新型量化技术,通过将细粒度的INT4权重解量化为粗粒度的INT8表示,并使用INT8内核进行矩阵乘法,来保持卓越性能同时确保快速推理速度。实验结果表明,DGQ在各种LLM架构和广泛的任务中始终优于之前的方法,通过高效的CUTLASS内核,实现1.12倍的内存减少和3.24倍的速度增益,从而实现了A8W4 LLM在实际应用中的高效部署。
Oct, 2023
本论文提出了一种有效的方法,可以更高效地部署大型语言模型,通过自动INT4纯权重量化流和设计具有高度优化内核的特殊LLM运行时,在CPU上加速LLM推理,展示了该方法对包括Llama2、Llama、GPT-NeoX等流行LLM的普适性,并显示了在CPU上的极高推理效率。
Nov, 2023
该研究探讨了大型语言模型的后训练量化,特别是4位权重和8位激活(W4A8)量化,以提高计算效率,介绍了激活量化感知的缩放(AQAS)和序列长度感知的校准(SLAC)等创新技术,并引入了整数和非规格化表示的混合数据格式(dINT)来解决W4A8量化中的下溢问题,并通过对LLMs的严格评估证明这些技术显著提高了任务准确度,并且与完整精度模型相当,通过与dINT兼容的算术单元的开发,进一步证实了该方法相对于8位整数MAC单元可以提升2倍硬件效率。
Nov, 2023
通过硬件为中心的方法,我们的压缩方法在硬件加速的基础上构建了一种新的W4A8内核实现,具有量化策略的综合配方,通过广泛的实验证明了我们的W4A8方法对于Hugging Face FP16推断的实际加速效果为4倍,对于TensorRT-LLM推断引擎的FP16加速效果为2.23倍,对于TensorRT-LLM推断引擎的INT8加速效果为1.45倍,且不会对性能造成实质性的损害。
Nov, 2023
提出了SmoothQuant+方法,它是一种准确而高效的4位权重量化方法,能够无损地减小大语言模型的内存开销,并且在精确度上没有损失。通过SmoothQuant+,Code Llama-34B模型能够在一张A100 40GB GPU上实现无损的准确度,并且相较于在两张A100 40GB GPUs上部署的FP16模型,能够提高1.9至4.0倍的吞吐量,每个token的延迟仅为FP16模型的68%。这是已知的大语言模型4位权重量化的最先进方法。
Dec, 2023
本文提出了一种基于显著性驱动的混合精度量化方案,即SliM-LLM,用于改进大型语言模型的精度和内存占用,并通过集成梯度量化器进一步减少困惑度。
May, 2024
该研究论文通过提出一种新型的整数化后训练量化框架(I-LLM),解决了大语言模型在部署边缘和云设备上仍需要大量浮点运算的问题。实验证明,I-LLM在保持准确性的前提下,可以以W4A4进行操作,优于其他非整数量化方法。
May, 2024
通过使用低秩权重缩放矩阵代替常规的全权重缩放矩阵,我们提出了一种低秩量化方法(LRQ),可以在大规模语言模型中取得更高的压缩性能和推断效率,提高量化语言模型的泛化能力。
Jul, 2024
本研究解决了大型语言模型推理中由于内存和计算需求高而导致的应用限制,通过引入一种新型的任意位量化算法和推理框架ABQ-LLM。该框架在不同量化设置下表现出色,并能够高效实现任意精度的量化推理,显著提高了 GPU 上低比特宽度执行的性能。最重要的发现是,ABQ-LLM在LLaMA-7B模型上的 W2*A8 量化配置下,获得了比以往方法更高的加速和内存压缩效果。
Aug, 2024