任意精度 LLM:低成本部署多个不同大小的 LLM
通过引入 SqueezeLLM 后训练的量化框架,该框架不仅实现了高达 3 位的无损压缩,还在相同的内存约束下实现了更高的量化性能,可以将羊毛出在羊身上,仿佛神器一般。
Jun, 2023
对大型语言模型的量化技术进行研究,发现 4 位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能,并且困惑度可以作为量化语言模型的代理度量。然而,量化也会影响推断速度,因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。
Feb, 2024
通过自适应通道重组技术,QLLM 提出了一种准确高效的低精度模型量化方法,实现了对大规模语言模型的低精度量化,并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。
Oct, 2023
利用一次训练的一揽子模型,通过去耦合共享权重、使用低秩适配器、调节采样率等方式,减少大型语言模型的内存需求和训练时间,同时保持高性能。
May, 2024
通过对模型规模和量化的综合评估,发现在各种任务中,规模较大的模型通常优于规模较小的模型,同时大规模模型对于精度降低有很好的韧性,可在较小的内存要求下保持高准确性,因此它们比使用更小的模型更好。
May, 2024
探索量化大型语言模型的最佳实践,平衡性能与计算效率。通过基准测试和实验,提出了与标定数据、量化算法和量化方案相对应的三个关键点,并构建了最佳的 LLM PTQ 流水线。
May, 2024
本论文提出了一种有效的方法,可以更高效地部署大型语言模型,通过自动 INT4 纯权重量化流和设计具有高度优化内核的特殊 LLM 运行时,在 CPU 上加速 LLM 推理,展示了该方法对包括 Llama2、Llama、GPT-NeoX 等流行 LLM 的普适性,并显示了在 CPU 上的极高推理效率。
Nov, 2023
通过硬件为中心的方法,我们的压缩方法在硬件加速的基础上构建了一种新的 W4A8 内核实现,具有量化策略的综合配方,通过广泛的实验证明了我们的 W4A8 方法对于 Hugging Face FP16 推断的实际加速效果为 4 倍,对于 TensorRT-LLM 推断引擎的 FP16 加速效果为 2.23 倍,对于 TensorRT-LLM 推断引擎的 INT8 加速效果为 1.45 倍,且不会对性能造成实质性的损害。
Nov, 2023