关于量化大型语言模型的可压缩性
该论文提供了针对大型语言模型的模型压缩技术的综述调查,涵盖量化、修剪、知识蒸馏等各种方法,并探讨了压缩后的大型语言模型的基准策略和评估指标,旨在促进效率和实际应用的提升,为领域的未来发展奠定了基础。
Aug, 2023
对大型语言模型的量化技术进行研究,发现 4 位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能,并且困惑度可以作为量化语言模型的代理度量。然而,量化也会影响推断速度,因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。
Feb, 2024
通过使用较少参数和定量化等模型压缩技术,MobileAIBench 评估了多尺寸、定量化水平和任务,并在真实设备上测量延迟和资源消耗,旨在提供在移动平台上部署大型语言模型和多模态模型的性能和可行性洞察,加速移动 AI 研究和部署。
Jun, 2024
通过引入 SqueezeLLM 后训练的量化框架,该框架不仅实现了高达 3 位的无损压缩,还在相同的内存约束下实现了更高的量化性能,可以将羊毛出在羊身上,仿佛神器一般。
Jun, 2023
探索量化大型语言模型的最佳实践,平衡性能与计算效率。通过基准测试和实验,提出了与标定数据、量化算法和量化方案相对应的三个关键点,并构建了最佳的 LLM PTQ 流水线。
May, 2024
通过硬件为中心的方法,我们的压缩方法在硬件加速的基础上构建了一种新的 W4A8 内核实现,具有量化策略的综合配方,通过广泛的实验证明了我们的 W4A8 方法对于 Hugging Face FP16 推断的实际加速效果为 4 倍,对于 TensorRT-LLM 推断引擎的 FP16 加速效果为 2.23 倍,对于 TensorRT-LLM 推断引擎的 INT8 加速效果为 1.45 倍,且不会对性能造成实质性的损害。
Nov, 2023
通过量化和修剪技术对各种训练好的深度学习模型进行压缩,并探讨了大型语言模型在量化和低秩适应后的性能,讨论了挑战和未来工作。
Jul, 2024
压缩大型语言模型(LLM)包含数十亿参数,可以提供更快的推理速度,更小的内存占用,并支持本地部署。我们通过对多个模型系列(ENCODER、ENCODER-DECODER 和 DECODER)使用 LAMA 和 LM-HARNESS 基准进行全面分析,以系统量化常用压缩技术对模型性能的影响,特别关注涉及参数化知识的权衡,旨在为从业人员提供实用的见解,帮助他们在压缩决策时做出明智的选择。
Dec, 2023
该研究介绍了一种创新的 LLM 压缩方法,使用量子启发的张量网络来压缩模型的相关空间,实现对 LLaMA-2 7B 模型的压缩,使其仅保留原始大小的 30%,并在经过简要分布式重新训练后恢复原始准确率的 90% 以上。
Jan, 2024
近期的研究引入了通过事后训练量化或低位权重表示来进行大语言模型(LLMs)有效压缩的技术。尽管量化权重提供了存储效率和更快推理的优势,但现有研究指出,量化可能损害性能并加剧 LLMs 中的偏见。本研究通过考虑语言模型类型和规模等因素,调查了量化模型的置信度和校准情况,揭示了通过 GPTQ 进行 4 位量化会导致对真实标签置信度的降低,同时不同语言模型之间观察到的影响差异。另外,本研究观察到在不同规模下对置信度影响的波动。最后,我们提出了一种基于置信度水平的量化损失解释,表明量化不成比例地影响了一开始完整模型置信度较低的样本。
May, 2024