FP6-LLM: 通过 FP6 中心算法系统共同设计高效服务大型语言模型
本研究审查了大型语言模型中的 4 位量化方法,重点关注 GPTQ 在零样本任务中的过拟合问题和限制。我们扩展了任务范围,涵盖了生成类别,如代码生成和抽象概括,发现 INT4 量化在其中显著性能不佳。然而,转向高精度格式如 FP6 却面临挑战,因为现有 AI 硬件上缺乏复杂的集成和系统加速策略导致性能较差,常被忽视。实验结果显示,FP6,即便采用粗粒度的量化方案,也能在各种算法和任务上表现出色,展示了它在准确性和多功能性方面的优势。值得注意的是,使用 FP6 量化,codestar-15B 模型在代码生成方面表现与其 FP16 对等,对于较小的模型如 406M,与摘要生成的基准模型非常接近,而 INT4 无法达到这种性能。为了更好适应各种 AI 硬件并实现最佳系统性能,我们提出了一种用于 FP6 的新颖 4+2 设计,以达到与最先进的 INT4 精细的量化相似的时延。通过我们的设计,FP6 可以成为当前 LLMs 中使用的 4 位量化方法的有希望的解决方案。
Dec, 2023
使用 FlattenQuant 方法在大型语言模型中实现低比特量化,通过将张量中的大通道展平以显著减少张量的最大值,本方法能够直接使用 4 位来实现 LLMs 中线性层计算的 48.29%,并使用 8 位来处理其余层,从而实现高达 2 倍的速度提升和 2.3 倍的内存减少,而准确度损失微不足道。
Feb, 2024
使用浮点量化在大型语言模型中表现出色,尤其是 FP8 和 FP4 的浮点数,在模型参数超过十亿时性能优势更加明显。对于权重量化来说,FP4 与 INT4 相比表现出可比、甚至更好的性能,简化了在支持 FP 的硬件上部署。对于通过权重和激活之间差异引起的精度对齐开销,我们提出了两个权重量化的缩放约束条件,对性能的影响微乎其微,与标准的 W4A8 模型相比。此外,我们还结合了低秩补偿(LoRC)策略来增强量化方法,特别适用于较小的模型。研究结果强调了浮点量化在大型语言模型中的巨大潜力,为资源受限环境中的高效部署铺平了道路。
Jul, 2023
通过引入 SqueezeLLM 后训练的量化框架,该框架不仅实现了高达 3 位的无损压缩,还在相同的内存约束下实现了更高的量化性能,可以将羊毛出在羊身上,仿佛神器一般。
Jun, 2023
为了解决大型语言模型在实际应用中的内存需求和推断成本的问题,我们提出了一种高效的仅权重量化方法,通过减少内存消耗和加速推断来实现。我们引入了一种简单而有效的启发式方法,仅利用预训练模型的模型权重来确保最小质量降低。该方法适用于混合专家模型和密集模型,并且无需额外的微调。通过分析量化大型语言模型的挑战和问题,并采用自适应的量化粒度进行解决,我们展示了我们提出的方法的有效性。此外,我们实现了高效的 GPU 矩阵乘法和解量化算法,支持 fp16 或 bf16 激活与 int8 或 int4 权重的乘法。我们在 OPT-175B 和内部混合专家模型等大规模开源模型上评估了我们的方法,展示了最小的准确性损失,并在相同数量的 GPU 上实现了高达 3.65 倍的吞吐量。
Aug, 2023
通过硬件为中心的方法,我们的压缩方法在硬件加速的基础上构建了一种新的 W4A8 内核实现,具有量化策略的综合配方,通过广泛的实验证明了我们的 W4A8 方法对于 Hugging Face FP16 推断的实际加速效果为 4 倍,对于 TensorRT-LLM 推断引擎的 FP16 加速效果为 2.23 倍,对于 TensorRT-LLM 推断引擎的 INT8 加速效果为 1.45 倍,且不会对性能造成实质性的损害。
Nov, 2023
提出了 SmoothQuant + 方法,它是一种准确而高效的 4 位权重量化方法,能够无损地减小大语言模型的内存开销,并且在精确度上没有损失。通过 SmoothQuant+,Code Llama-34B 模型能够在一张 A100 40GB GPU 上实现无损的准确度,并且相较于在两张 A100 40GB GPUs 上部署的 FP16 模型,能够提高 1.9 至 4.0 倍的吞吐量,每个 token 的延迟仅为 FP16 模型的 68%。这是已知的大语言模型 4 位权重量化的最先进方法。
Dec, 2023
该研究论文通过提出一种新型的整数化后训练量化框架 (I-LLM),解决了大语言模型在部署边缘和云设备上仍需要大量浮点运算的问题。实验证明,I-LLM 在保持准确性的前提下,可以以 W4A4 进行操作,优于其他非整数量化方法。
May, 2024
本论文提出了一种有效的方法,可以更高效地部署大型语言模型,通过自动 INT4 纯权重量化流和设计具有高度优化内核的特殊 LLM 运行时,在 CPU 上加速 LLM 推理,展示了该方法对包括 Llama2、Llama、GPT-NeoX 等流行 LLM 的普适性,并显示了在 CPU 上的极高推理效率。
Nov, 2023