QuaRot:无异常值的旋转 LLMs 中的 4 位推断
通过优化旋转参数,针对大型语言模型(LLMs)进行后训练量化(PTQ)可显著减少内存使用、延迟和功耗,并减小其量化误差。通过将随机旋转应用于 LLMs 中的激活和权重矩阵,SpinQuant 方法优化旋转矩阵来减小量化误差,对比其他方法提升了零样本推理性能,尤其在难以量化的模型上获得了显著提升。
May, 2024
本研究提出了一种创新的量化策略 ——DuQuant,采用旋转和置换变换更有效地消除异常激活,并在多个任务中表现出卓越的异常值管理能力,即使在 4 位权重 - 激活量化下也能取得顶级结果。
Jun, 2024
通过自适应通道重组技术,QLLM 提出了一种准确高效的低精度模型量化方法,实现了对大规模语言模型的低精度量化,并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。
Oct, 2023
提出了 SmoothQuant + 方法,它是一种准确而高效的 4 位权重量化方法,能够无损地减小大语言模型的内存开销,并且在精确度上没有损失。通过 SmoothQuant+,Code Llama-34B 模型能够在一张 A100 40GB GPU 上实现无损的准确度,并且相较于在两张 A100 40GB GPUs 上部署的 FP16 模型,能够提高 1.9 至 4.0 倍的吞吐量,每个 token 的延迟仅为 FP16 模型的 68%。这是已知的大语言模型 4 位权重量化的最先进方法。
Dec, 2023
大多数大型生成模型的推理计算可以通过将权重和激活值均转换为 4 位来加速计算,同时保持良好的准确性;我们通过名为 QUIK 的混合量化策略实现这一目标,该策略将大多数权重和激活值压缩为 4 位,将一些异常值保留在较高精度;关键是,我们的方案专注于计算效率,提供高效的逐层 GPU 内核,相对于 FP16 执行,端到端的吞吐量可提高最多 3.1 倍。
Oct, 2023
该研究使用 1 位量化来减少高度期望的低精度模型的存储和计算开销,并通过引入一种 1 位量化感知训练框架 OneBit 以及基于矩阵分解的参数初始化方法来实现良好的性能(至少达到非量化性能的 83%)。
Feb, 2024
通过提出一种数据无关的蒸馏方法,利用预训练模型生成的结果来实现对语言模型低位量化,包括权重、激活值和 KV Cache,该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。
May, 2023
LLMs 在大文本分析和摘要等需要大上下文窗口的应用中得到越来越广泛的应用,KV 缓存激活成为推断过程中存储器占用的主要贡献者。本研究通过引入新颖的方法对缓存的 KV 激活进行量化,包括:(i)通道关键激活量化,(ii)Rotary 位置嵌入本地化量化,(iii)非均匀 KV 缓存量化,(iv)向量稠密稀疏量化,和(v)Q-Norm。通过将这些方法应用于 LLaMA、LLaMA-2 和 Mistral 模型,我们在 Wikitext-2 和 C4 数据集上使用 3 位量化实现了小于 0.1 的困惑度退化,优于现有方法。我们的方法使得在单个 A100-80GB GPU 上可以为 LLaMA-7B 模型提供长达 100 万的上下文长度,而在 8-GPU 系统上可以提供长达 1000 万的上下文长度。
Jan, 2024
量化技术在提速大规模语言模型推理方面发挥作用,但现有的 INT4 量化方法在大批量云端应用中存在效率问题。本研究提出了一种名为 QoQ 的算法,该算法通过使用 4 位权重、8 位激活和 4 位 KV 缓存来解决该挑战,并通过 QServe 推理库实现。QServe 在 GPU 上通过低吞吐 CUDA 核心上的操作来提高 LLM 服务的效率,采用渐进量化来减小 W4A8 GEMM 的量化开销,并通过 SmoothAttention 减轻 4 位 KV 量化带来的精度下降,从而有效提高 LLM 的服务吞吐量,降低成本。
May, 2024