SDQ:稀疏分解量化用于 LLM 推断
通过引入 SqueezeLLM 后训练的量化框架,该框架不仅实现了高达 3 位的无损压缩,还在相同的内存约束下实现了更高的量化性能,可以将羊毛出在羊身上,仿佛神器一般。
Jun, 2023
本研究提出了一种高效的量化策略,利用信噪比(SQNR)作为评估指标,将相对量化噪声视为噪声,识别模型中的敏感部分,并提出了既包括全局策略又包括局部策略的高效量化方法。实验结果表明,实施全局和局部策略能够高效地量化并有效地压缩 LDMs。
Dec, 2023
通过 Sparse-Quantized Representation(SpQR)压缩 LLMs,提出全新的压缩格式和量化技术,通过将所有其他权重压缩到 3-4 位并将异常权重以高精度存储以解决精度问题,既能保存模型的准确性,又能达到先前方法相似的压缩水平,该方法的运行速度要比 16 位基线快,并实现超过 4 倍的内存压缩收益。
Jun, 2023
对大型语言模型的量化技术进行研究,发现 4 位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能,并且困惑度可以作为量化语言模型的代理度量。然而,量化也会影响推断速度,因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。
Feb, 2024
尽管现代大型语言模型在取得显著成就的同时遇到了过高的计算和内存占用问题,但最近的研究工作展示了基于裁剪和量化的无需训练和无需数据的压缩方法在压缩大型语言模型方面取得了显著成功。本研究介绍了一种名为 LLM-KICK 的压缩语言模型评估协议,通过其揭示了当前最先进的压缩方法的优点和缺点,并展示了稀疏化和量化对于语言理解、推理、生成、检索和摘要等任务的影响。我们希望这项研究能够促进更好的语言模型压缩方法的发展。
Oct, 2023
通过硬件为中心的方法,我们的压缩方法在硬件加速的基础上构建了一种新的 W4A8 内核实现,具有量化策略的综合配方,通过广泛的实验证明了我们的 W4A8 方法对于 Hugging Face FP16 推断的实际加速效果为 4 倍,对于 TensorRT-LLM 推断引擎的 FP16 加速效果为 2.23 倍,对于 TensorRT-LLM 推断引擎的 INT8 加速效果为 1.45 倍,且不会对性能造成实质性的损害。
Nov, 2023
本文提出一种新颖的动态存储量化策略,Dynamic Stashing Quantization(DSQ),旨在减少内存操作,并享受低精度训练的其他好处,比如减少运算成本,通过在两个翻译任务和三个分类任务上的研究表明,DSQ 在 IWSLT17 上将算术操作的数量降低了 20.95 倍,并将 DRAM 操作数量降低了 2.55 倍,这为大语言模型在设备学习中的部署提供了解决方案。
Mar, 2023
通过后训练量化和量化意识训练来研究 Transformer 语言模型的概括化效果。提出了一种称为自身蒸馏量化(SDQ)的方法,该方法最小化积累的量化误差,并优于基线。将 SDQ 应用于多语言模型 XLM-R-Base 和 InfoXLM-Base,并证明两个模型可以从 32 位浮点权重减少到 8 位整数权重,同时在 XGLUE 基准上保持高水平的性能。我们的结果还突出了量化多语言模型的挑战,这些模型必须概括他们没有针对性微调的语言。
Jul, 2023