Atom:高效准确的 LLM 服务器的低比特量化
通过自适应通道重组技术,QLLM 提出了一种准确高效的低精度模型量化方法,实现了对大规模语言模型的低精度量化,并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。
Oct, 2023
量化技术在提速大规模语言模型推理方面发挥作用,但现有的 INT4 量化方法在大批量云端应用中存在效率问题。本研究提出了一种名为 QoQ 的算法,该算法通过使用 4 位权重、8 位激活和 4 位 KV 缓存来解决该挑战,并通过 QServe 推理库实现。QServe 在 GPU 上通过低吞吐 CUDA 核心上的操作来提高 LLM 服务的效率,采用渐进量化来减小 W4A8 GEMM 的量化开销,并通过 SmoothAttention 减轻 4 位 KV 量化带来的精度下降,从而有效提高 LLM 的服务吞吐量,降低成本。
May, 2024
通过提出一种数据无关的蒸馏方法,利用预训练模型生成的结果来实现对语言模型低位量化,包括权重、激活值和 KV Cache,该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。
May, 2023
通过以较小的计算代价解决对大型语言模型(LLMs)进行量化和去量化操作时所面临的问题,我们提出了一种新的技术,并在不同模型和尺寸上进行了广泛实验,成功实现了每个权重的 2.85 位表示,模型的端到端加速比为 1.74 倍,同时降低了运行成本和硬件需求。
Nov, 2023
该研究探讨了大型语言模型的后训练量化,特别是 4 位权重和 8 位激活(W4A8)量化,以提高计算效率,介绍了激活量化感知的缩放(AQAS)和序列长度感知的校准(SLAC)等创新技术,并引入了整数和非规格化表示的混合数据格式(dINT)来解决 W4A8 量化中的下溢问题,并通过对 LLMs 的严格评估证明这些技术显著提高了任务准确度,并且与完整精度模型相当,通过与 dINT 兼容的算术单元的开发,进一步证实了该方法相对于 8 位整数 MAC 单元可以提升 2 倍硬件效率。
Nov, 2023
使用 FlattenQuant 方法在大型语言模型中实现低比特量化,通过将张量中的大通道展平以显著减少张量的最大值,本方法能够直接使用 4 位来实现 LLMs 中线性层计算的 48.29%,并使用 8 位来处理其余层,从而实现高达 2 倍的速度提升和 2.3 倍的内存减少,而准确度损失微不足道。
Feb, 2024
大型语言模型经常遇到计算和存储需求增加的挑战,为此我们提出了一种名为 LR-QAT 的轻量级、存储高效的量化感知训练算法,通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件,我们可以在不牺牲预测性能的情况下节省内存,该方法可应用于多种量化设置并与多种 PTQ 技术无缝结合,有效提升模型性能并在内存使用上达到与全模型 QAT 相当的水平。
Jun, 2024
该研究使用 1 位量化来减少高度期望的低精度模型的存储和计算开销,并通过引入一种 1 位量化感知训练框架 OneBit 以及基于矩阵分解的参数初始化方法来实现良好的性能(至少达到非量化性能的 83%)。
Feb, 2024
本文介绍了一种针对大型语言模型的激活引导量化框架 Agile-Quant,通过模型参数和激活函数的量化实现了在边缘设备上更快的推理速度。
Dec, 2023
提出了 SmoothQuant + 方法,它是一种准确而高效的 4 位权重量化方法,能够无损地减小大语言模型的内存开销,并且在精确度上没有损失。通过 SmoothQuant+,Code Llama-34B 模型能够在一张 A100 40GB GPU 上实现无损的准确度,并且相较于在两张 A100 40GB GPUs 上部署的 FP16 模型,能够提高 1.9 至 4.0 倍的吞吐量,每个 token 的延迟仅为 FP16 模型的 68%。这是已知的大语言模型 4 位权重量化的最先进方法。
Dec, 2023