该论文提供了针对大型语言模型的模型压缩技术的综述调查,涵盖量化、修剪、知识蒸馏等各种方法,并探讨了压缩后的大型语言模型的基准策略和评估指标,旨在促进效率和实际应用的提升,为领域的未来发展奠定了基础。
Aug, 2023
本研究采用Coordinate Descent(CD)技术,通过QuantEase分层量化框架对Large Language Models(LLMs)进行后训练量化,包括离群值感知算法,以实现近乎3位量化并提高模型性能。
Sep, 2023
该研究提出了一种新颖的双二值化方法(DB-LLM),用于大型语言模型(LLMs)的超低位量化,以提高计算效率,并通过偏差感知蒸馏(DAD)方法减少预测失真,实现了超低位量化时的显著准确性提升和计算效率降低。
Feb, 2024
对大型语言模型的量化技术进行研究,发现4位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能,并且困惑度可以作为量化语言模型的代理度量。然而,量化也会影响推断速度,因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。
探索量化大型语言模型的最佳实践,平衡性能与计算效率。通过基准测试和实验,提出了与标定数据、量化算法和量化方案相对应的三个关键点,并构建了最佳的LLM PTQ流水线。
May, 2024
本文提出了一种基于显著性驱动的混合精度量化方案,即SliM-LLM,用于改进大型语言模型的精度和内存占用,并通过集成梯度量化器进一步减少困惑度。
使用全面的基准套件,我们探索了大规模语言模型在量化过程中的泛化能力以及校准数据分布对其影响,并且发布了一个模块化设计的工具包来帮助未来的研究。
Jun, 2024
我们提出了一种简单的变量量化方法,该方法将大型语言模型的不同层在不同的比特级别上进行量化,通过将最重要的层量化为更高比特精度并将不太重要的层量化为较低比特以实现浮点量化级别。
本研究针对大语言模型在实际应用中面临的高内存和计算需求问题,提出低比特量化作为一种解决方案。论文通过系统性综述低比特量化方法,涵盖基本原理、系统实现以及算法策略,为未来大语言模型的高效性和适用性提供了重要的见解和指导。
Sep, 2024
本研究解决了大语言模型在资源受限的物联网设备和嵌入式系统上部署的计算挑战,探讨了量化技术在此方面的应用。通过深入分析量化的数学理论及其在大语言模型中的多种实现方法,研究表明量化技术有效降低了模型大小并加速了推理过程,对提高资源利用效率具有深远的影响。
Oct, 2024