MARLIN:大型语言模型的混合精度自回归并行推断
通过引入SqueezeLLM后训练的量化框架,该框架不仅实现了高达3位的无损压缩,还在相同的内存约束下实现了更高的量化性能,可以将羊毛出在羊身上,仿佛神器一般。
Jun, 2023
为了解决大型语言模型在实际应用中的内存需求和推断成本的问题,我们提出了一种高效的仅权重量化方法,通过减少内存消耗和加速推断来实现。我们引入了一种简单而有效的启发式方法,仅利用预训练模型的模型权重来确保最小质量降低。该方法适用于混合专家模型和密集模型,并且无需额外的微调。通过分析量化大型语言模型的挑战和问题,并采用自适应的量化粒度进行解决,我们展示了我们提出的方法的有效性。此外,我们实现了高效的GPU矩阵乘法和解量化算法,支持fp16或bf16激活与int8或int4权重的乘法。我们在OPT-175B和内部混合专家模型等大规模开源模型上评估了我们的方法,展示了最小的准确性损失,并在相同数量的GPU上实现了高达3.65倍的吞吐量。
Aug, 2023
本论文提出了一种有效的方法,可以更高效地部署大型语言模型,通过自动INT4纯权重量化流和设计具有高度优化内核的特殊LLM运行时,在CPU上加速LLM推理,展示了该方法对包括Llama2、Llama、GPT-NeoX等流行LLM的普适性,并显示了在CPU上的极高推理效率。
Nov, 2023
通过硬件为中心的方法,我们的压缩方法在硬件加速的基础上构建了一种新的W4A8内核实现,具有量化策略的综合配方,通过广泛的实验证明了我们的W4A8方法对于Hugging Face FP16推断的实际加速效果为4倍,对于TensorRT-LLM推断引擎的FP16加速效果为2.23倍,对于TensorRT-LLM推断引擎的INT8加速效果为1.45倍,且不会对性能造成实质性的损害。
Nov, 2023
QUICK是一组新型优化的CUDA内核,用于高效推理量化的大型语言模型。QUICK解决了现有混合精度矩阵乘法内核中的共享内存冲突问题,通过离线交错量化的权重矩阵跳过解量化后的共享内存写回。我们展示了在较大批次上相对于AutoAWQ现有内核的高达1.91倍的加速效果,并在各种NVIDIA GPU设备上相对于代表性LLM模型获得高达1.94倍的吞吐量提升。
Feb, 2024
对大型语言模型的量化技术进行研究,发现4位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能,并且困惑度可以作为量化语言模型的代理度量。然而,量化也会影响推断速度,因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。
Feb, 2024
LLM-PQ是一个提倡自适应模型量化和阶段感知模型分区的系统,旨在通过在异构GPU集群上提高LLM的服务效率。通过混合精度模型量化、阶段感知模型分区和微批量大小的决策,LLM-PQ大大提高了推理吞吐量,同时满足用户指定的模型质量目标。对11个不同集群上的生产推理工作负载进行的大量实验表明,LLM-PQ在推理上实现了高达2.88倍(平均2.26倍)的吞吐量改进,显示出较其他最先进方法的巨大优势。
Mar, 2024
使用FLUTE内核可以提高大型语言模型的推理速度,尤其在权重非均匀、查找表量化的情况下,通过离线重构量化权重矩阵,最小化位操作,并通过向量化和查找表的复制来减轻共享内存带宽限制,可以使FLUTE内核比现有的GEMM内核快2-4倍。
Jul, 2024
本研究解决了大型语言模型推理中由于内存和计算需求高而导致的应用限制,通过引入一种新型的任意位量化算法和推理框架ABQ-LLM。该框架在不同量化设置下表现出色,并能够高效实现任意精度的量化推理,显著提高了 GPU 上低比特宽度执行的性能。最重要的发现是,ABQ-LLM在LLaMA-7B模型上的 W2*A8 量化配置下,获得了比以往方法更高的加速和内存压缩效果。
Aug, 2024
该研究解决了大型语言模型在高效推理过程中面临的挑战,尤其是在超低比特量化和内存管理方面的限制。提出了一种新颖的双极INT数据格式和任意精度矩阵乘法方案,显著提升了GPU张量核心的利用率,并通过高效的内存管理系统实现了最大化的执行速度。实验结果表明,该方法在矩阵乘法上可达到高达13倍的加速,并在大型语言模型中实现了高达6.7倍的推理加速。
Sep, 2024