在 GPU 上实现快速 2 位硬件离线量化低内存映射:内存对齐、稀疏离群值和异步解量化
通过引入 SqueezeLLM 后训练的量化框架,该框架不仅实现了高达 3 位的无损压缩,还在相同的内存约束下实现了更高的量化性能,可以将羊毛出在羊身上,仿佛神器一般。
Jun, 2023
通过自适应通道重组技术,QLLM 提出了一种准确高效的低精度模型量化方法,实现了对大规模语言模型的低精度量化,并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。
Oct, 2023
提出了 SmoothQuant + 方法,它是一种准确而高效的 4 位权重量化方法,能够无损地减小大语言模型的内存开销,并且在精确度上没有损失。通过 SmoothQuant+,Code Llama-34B 模型能够在一张 A100 40GB GPU 上实现无损的准确度,并且相较于在两张 A100 40GB GPUs 上部署的 FP16 模型,能够提高 1.9 至 4.0 倍的吞吐量,每个 token 的延迟仅为 FP16 模型的 68%。这是已知的大语言模型 4 位权重量化的最先进方法。
Dec, 2023
该研究使用 1 位量化来减少高度期望的低精度模型的存储和计算开销,并通过引入一种 1 位量化感知训练框架 OneBit 以及基于矩阵分解的参数初始化方法来实现良好的性能(至少达到非量化性能的 83%)。
Feb, 2024
该研究介绍了一种新的后训练量化方法 GPTQT,通过以 3 位 / 2 位表示 LLM 的权重,以减少内存使用并增强处理速度。经过测试,与强 3 位量化基准相比,GPTQT 在 opt-66B 上进一步降低了困惑度 4.01,并在 opt-30b 上提高了 1.24 倍的速度,说明 GPTQT 是目前针对此类 LLMs 的最佳二进制编码量化方法。
Jul, 2024
为了解决大型语言模型在实际应用中的内存需求和推断成本的问题,我们提出了一种高效的仅权重量化方法,通过减少内存消耗和加速推断来实现。我们引入了一种简单而有效的启发式方法,仅利用预训练模型的模型权重来确保最小质量降低。该方法适用于混合专家模型和密集模型,并且无需额外的微调。通过分析量化大型语言模型的挑战和问题,并采用自适应的量化粒度进行解决,我们展示了我们提出的方法的有效性。此外,我们实现了高效的 GPU 矩阵乘法和解量化算法,支持 fp16 或 bf16 激活与 int8 或 int4 权重的乘法。我们在 OPT-175B 和内部混合专家模型等大规模开源模型上评估了我们的方法,展示了最小的准确性损失,并在相同数量的 GPU 上实现了高达 3.65 倍的吞吐量。
Aug, 2023
通过使用块量化技术,本研究实现了基于大型语言模型(LLMs)的几乎无损 6 位量化,与浮点数基准相比算术密度增加了 19 倍,内存密度增加了 5 倍,超过了之前 8 位量化的先前技术。同时,介绍了子 8 位 LLM 量化的关键见解,包括激活和权重分布之间的不匹配、最佳的微调策略,以及 LLMs 统计属性中固有的较低量化粒度。该研究提出的框架将在发表后开源。
Oct, 2023
大多数大型生成模型的推理计算可以通过将权重和激活值均转换为 4 位来加速计算,同时保持良好的准确性;我们通过名为 QUIK 的混合量化策略实现这一目标,该策略将大多数权重和激活值压缩为 4 位,将一些异常值保留在较高精度;关键是,我们的方案专注于计算效率,提供高效的逐层 GPU 内核,相对于 FP16 执行,端到端的吞吐量可提高最多 3.1 倍。
Oct, 2023
对大型语言模型的量化技术进行研究,发现 4 位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能,并且困惑度可以作为量化语言模型的代理度量。然而,量化也会影响推断速度,因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。
Feb, 2024