QuantEase: 基于优化的语言模型量化 -- 一种高效直观的算法
CDQuant 是一个简单且可扩展的替代 GPTQ 的算法,使用坐标下降法来实现高质量的量化权重,通过在 PaLM2 模型系列上进行广泛评估,我们证明 CDQuant 在各种模型规模和量化级别下始终优于 GPTQ。
Jun, 2024
通过 quantization 技术,结合 SmoothQuant 和 GPTQ 两种 post-training 技术,将模型量化为 MX 格式,能够显著减小优化型模型大小至多 4 倍,提高 LLaMA 模型大小至多 3 倍,同时仅仅增加 1-3% 的困惑度。
May, 2024
基于等效仿射变换的后训练量化方法 (AffineQuant) 扩展了优化范围,显著减少了量化误差,在大规模语言模型上达到了显著的性能提升,并在 PTQ 领域树立了新的技术标杆。
Mar, 2024
通过自适应通道重组技术,QLLM 提出了一种准确高效的低精度模型量化方法,实现了对大规模语言模型的低精度量化,并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。
Oct, 2023
SmoothQuant 是一个训练免费的精度保持、通用的后训练量化解决方案,用于大型语言模型(LLMs),通过平滑激活异常值并在权重和激活之间进行数学上等效的变换以迁移量化难度,可以实现 LLMs 的 8 位权重和激活(W8A8)量化,同时提高硬件效率,以较小的精度损失实现高达 2 倍的内存减少和 1.56 倍的加速,是一个可降低硬件成本、民主化 LLMs 的一站式解决方案。
Nov, 2022
在这项研究中,我们展示了通过增加量化维度可以显著改善神经网络量化的大小和准确性之间的权衡。我们提出了 GPTVQ 方法,一种新的快速方法,用于对大型语言模型(LLMs)进行训练后的向量量化(VQ),并在多列的量化和未量化权重更新之间交错使用每层输出重建 MSE 的 Hessian 信息。通过使用数据感知的 EM 算法的高效版本初始化码本,然后使用整数量化和基于 SVD 的压缩来进行进一步压缩。GPTVQ 在诸如 Llama-v2 和 Mistral 之类的各种 LLMs 上建立了新的最先进的大小与准确性权衡状态。此外,我们的方法高效:在单个 H100 上处理 Llamav2-70B 模型需要 3 到 11 个小时,具体取决于量化设置。最后,通过对移动 CPU 上的 VQ 解压缩进行设备上的计时,我们显示 VQ 相比于使用 4 位整数格式可以提供改进的延迟。
Feb, 2024
该研究介绍了一种新的后训练量化方法 GPTQT,通过以 3 位 / 2 位表示 LLM 的权重,以减少内存使用并增强处理速度。经过测试,与强 3 位量化基准相比,GPTQT 在 opt-66B 上进一步降低了困惑度 4.01,并在 opt-30b 上提高了 1.24 倍的速度,说明 GPTQT 是目前针对此类 LLMs 的最佳二进制编码量化方法。
Jul, 2024
通过引入 APTQ(关注感知的后训练混合精度量化),该研究提出了一种在大规模语言模型上进行混合精度量化的方法,利用 Hessian 迹作为灵敏度指标,以实现在模型性能保持的前提下进行精度降低,并取得了优于以往量化方法的效果。
Feb, 2024
本研究提出了 EasyQuant,这是一种训练免费且独立于数据的权重量化算法,旨在实现对大型语言模型(LLMs)的几乎无损量化性能,且算法运行速度比依赖于数据的方法快 10 倍以上。
Mar, 2024
本论文通过对 PTQ 技术在 11 个模型家族的综合评估,系统总结了量化对权重、激活函数和 KV Cache 的影响,提供了应用量化技术的建议,指出了未来的研究方向。
Feb, 2024