QQQ:大型语言模型的高质量四位量化
本研究提出了一种新的基于 W4A8 的后训练量化方法,结合了现有的两种技术的优势,实现了 4 位权重量化和 8 位矩阵计算加速,在多个标准基准测试中获得最新的 W4A8 量化性能,为大型语言模型的实际应用提供了可能。
Aug, 2023
量化技术在提速大规模语言模型推理方面发挥作用,但现有的 INT4 量化方法在大批量云端应用中存在效率问题。本研究提出了一种名为 QoQ 的算法,该算法通过使用 4 位权重、8 位激活和 4 位 KV 缓存来解决该挑战,并通过 QServe 推理库实现。QServe 在 GPU 上通过低吞吐 CUDA 核心上的操作来提高 LLM 服务的效率,采用渐进量化来减小 W4A8 GEMM 的量化开销,并通过 SmoothAttention 减轻 4 位 KV 量化带来的精度下降,从而有效提高 LLM 的服务吞吐量,降低成本。
May, 2024
该研究探讨了大型语言模型的后训练量化,特别是 4 位权重和 8 位激活(W4A8)量化,以提高计算效率,介绍了激活量化感知的缩放(AQAS)和序列长度感知的校准(SLAC)等创新技术,并引入了整数和非规格化表示的混合数据格式(dINT)来解决 W4A8 量化中的下溢问题,并通过对 LLMs 的严格评估证明这些技术显著提高了任务准确度,并且与完整精度模型相当,通过与 dINT 兼容的算术单元的开发,进一步证实了该方法相对于 8 位整数 MAC 单元可以提升 2 倍硬件效率。
Nov, 2023
通过自适应通道重组技术,QLLM 提出了一种准确高效的低精度模型量化方法,实现了对大规模语言模型的低精度量化,并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。
Oct, 2023
提出了 SmoothQuant + 方法,它是一种准确而高效的 4 位权重量化方法,能够无损地减小大语言模型的内存开销,并且在精确度上没有损失。通过 SmoothQuant+,Code Llama-34B 模型能够在一张 A100 40GB GPU 上实现无损的准确度,并且相较于在两张 A100 40GB GPUs 上部署的 FP16 模型,能够提高 1.9 至 4.0 倍的吞吐量,每个 token 的延迟仅为 FP16 模型的 68%。这是已知的大语言模型 4 位权重量化的最先进方法。
Dec, 2023
提出了一种基于激活函数的、硬件友好型的低比特权重量化方法。该方法可以保护神经网络的关键权重并保持其泛化能力,在不影响硬件效率的前提下,有效降低了语言模型部署的成本。
Jun, 2023
通过硬件为中心的方法,我们的压缩方法在硬件加速的基础上构建了一种新的 W4A8 内核实现,具有量化策略的综合配方,通过广泛的实验证明了我们的 W4A8 方法对于 Hugging Face FP16 推断的实际加速效果为 4 倍,对于 TensorRT-LLM 推断引擎的 FP16 加速效果为 2.23 倍,对于 TensorRT-LLM 推断引擎的 INT8 加速效果为 1.45 倍,且不会对性能造成实质性的损害。
Nov, 2023
使用浮点量化在大型语言模型中表现出色,尤其是 FP8 和 FP4 的浮点数,在模型参数超过十亿时性能优势更加明显。对于权重量化来说,FP4 与 INT4 相比表现出可比、甚至更好的性能,简化了在支持 FP 的硬件上部署。对于通过权重和激活之间差异引起的精度对齐开销,我们提出了两个权重量化的缩放约束条件,对性能的影响微乎其微,与标准的 W4A8 模型相比。此外,我们还结合了低秩补偿(LoRC)策略来增强量化方法,特别适用于较小的模型。研究结果强调了浮点量化在大型语言模型中的巨大潜力,为资源受限环境中的高效部署铺平了道路。
Jul, 2023
SmoothQuant 是一个训练免费的精度保持、通用的后训练量化解决方案,用于大型语言模型(LLMs),通过平滑激活异常值并在权重和激活之间进行数学上等效的变换以迁移量化难度,可以实现 LLMs 的 8 位权重和激活(W8A8)量化,同时提高硬件效率,以较小的精度损失实现高达 2 倍的内存减少和 1.56 倍的加速,是一个可降低硬件成本、民主化 LLMs 的一站式解决方案。
Nov, 2022
大多数大型生成模型的推理计算可以通过将权重和激活值均转换为 4 位来加速计算,同时保持良好的准确性;我们通过名为 QUIK 的混合量化策略实现这一目标,该策略将大多数权重和激活值压缩为 4 位,将一些异常值保留在较高精度;关键是,我们的方案专注于计算效率,提供高效的逐层 GPU 内核,相对于 FP16 执行,端到端的吞吐量可提高最多 3.1 倍。
Oct, 2023