整数量化尺度:加速低位宽量化 LLM 的免费午餐
该研究论文通过提出一种新型的整数化后训练量化框架 (I-LLM),解决了大语言模型在部署边缘和云设备上仍需要大量浮点运算的问题。实验证明,I-LLM 在保持准确性的前提下,可以以 W4A4 进行操作,优于其他非整数量化方法。
May, 2024
为了解决大型语言模型在实际应用中的内存需求和推断成本的问题,我们提出了一种高效的仅权重量化方法,通过减少内存消耗和加速推断来实现。我们引入了一种简单而有效的启发式方法,仅利用预训练模型的模型权重来确保最小质量降低。该方法适用于混合专家模型和密集模型,并且无需额外的微调。通过分析量化大型语言模型的挑战和问题,并采用自适应的量化粒度进行解决,我们展示了我们提出的方法的有效性。此外,我们实现了高效的 GPU 矩阵乘法和解量化算法,支持 fp16 或 bf16 激活与 int8 或 int4 权重的乘法。我们在 OPT-175B 和内部混合专家模型等大规模开源模型上评估了我们的方法,展示了最小的准确性损失,并在相同数量的 GPU 上实现了高达 3.65 倍的吞吐量。
Aug, 2023
该论文介绍了一种称为 Dual Grained Quantization (DGQ) 的新型量化技术,通过将细粒度的 INT4 权重解量化为粗粒度的 INT8 表示,并使用 INT8 内核进行矩阵乘法,来保持卓越性能同时确保快速推理速度。实验结果表明,DGQ 在各种 LLM 架构和广泛的任务中始终优于之前的方法,通过高效的 CUTLASS 内核,实现 1.12 倍的内存减少和 3.24 倍的速度增益,从而实现了 A8W4 LLM 在实际应用中的高效部署。
Oct, 2023
通过提出一种数据无关的蒸馏方法,利用预训练模型生成的结果来实现对语言模型低位量化,包括权重、激活值和 KV Cache,该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。
May, 2023
本文提出一种名为 EasyQuant (EQ) 的简单有效的后训练量化方法,通过尺度优化来获得类似于基于训练方法的精度。具体地,我们针对卷积输出的所有层交替优化权重和激活的规模,以进一步获取高量化精度。然后,我们将位宽降低到 INT7,同时采用 INT16 中间存储和整数 Winograd 卷积实现加速推断。各种计算机视觉任务的实验结果表明,EQ 优于 TensorRT 方法,并且在经过 7 位宽后训练可达到接近 INT8 的精度。
Jun, 2020
该研究探讨了大型语言模型的后训练量化,特别是 4 位权重和 8 位激活(W4A8)量化,以提高计算效率,介绍了激活量化感知的缩放(AQAS)和序列长度感知的校准(SLAC)等创新技术,并引入了整数和非规格化表示的混合数据格式(dINT)来解决 W4A8 量化中的下溢问题,并通过对 LLMs 的严格评估证明这些技术显著提高了任务准确度,并且与完整精度模型相当,通过与 dINT 兼容的算术单元的开发,进一步证实了该方法相对于 8 位整数 MAC 单元可以提升 2 倍硬件效率。
Nov, 2023
本文提出了一种新的方法,使用极度节约内存的微调方法和 Low-Rank Adaptation (LoRA) 对异常进行纠正,从而显著减少了缺乏内存的大型模型的微调 VRAM 需求,并使精度达到了 INT2.1。同时,我们的方法适用于其他量化标准,如 INT3,INT4 和 INT8,为模型量化领域带来了重大的里程碑。
Jun, 2023
提出了一种简单且可扩展的方法,使用最新的大型语言模型(如 GPT-3.5)来生成高质量的数学推理数据。通过从种子数学问题中提取主题和知识点,构建概念图,并生成新的数学问题,最终创建了一个包含 200 万个数学问题 - 答案对的数学推理数据集(MathScaleQA)。通过对开源大型语言模型(如 LLaMA-2 和 Mistral)进行 Fine-tuning,MathScale-7B 在 Math Word Problems 基准测试(MwpBench)上取得了最先进的性能。
Mar, 2024
本研究提出了 EasyQuant,这是一种训练免费且独立于数据的权重量化算法,旨在实现对大型语言模型(LLMs)的几乎无损量化性能,且算法运行速度比依赖于数据的方法快 10 倍以上。
Mar, 2024
通过对模型规模和量化的综合评估,发现在各种任务中,规模较大的模型通常优于规模较小的模型,同时大规模模型对于精度降低有很好的韧性,可在较小的内存要求下保持高准确性,因此它们比使用更小的模型更好。
May, 2024