语言模型词汇压缩用于低计算环境
通过Sparse-Quantized Representation(SpQR)压缩LLMs,提出全新的压缩格式和量化技术,通过将所有其他权重压缩到3-4位并将异常权重以高精度存储以解决精度问题,既能保存模型的准确性,又能达到先前方法相似的压缩水平,该方法的运行速度要比16位基线快,并实现超过4倍的内存压缩收益。
Jun, 2023
该论文提供了针对大型语言模型的模型压缩技术的综述调查,涵盖量化、修剪、知识蒸馏等各种方法,并探讨了压缩后的大型语言模型的基准策略和评估指标,旨在促进效率和实际应用的提升,为领域的未来发展奠定了基础。
Aug, 2023
尽管现代大型语言模型在取得显著成就的同时遇到了过高的计算和内存占用问题,但最近的研究工作展示了基于裁剪和量化的无需训练和无需数据的压缩方法在压缩大型语言模型方面取得了显著成功。本研究介绍了一种名为LLM-KICK的压缩语言模型评估协议,通过其揭示了当前最先进的压缩方法的优点和缺点,并展示了稀疏化和量化对于语言理解、推理、生成、检索和摘要等任务的影响。我们希望这项研究能够促进更好的语言模型压缩方法的发展。
Oct, 2023
通过硬件为中心的方法,我们的压缩方法在硬件加速的基础上构建了一种新的W4A8内核实现,具有量化策略的综合配方,通过广泛的实验证明了我们的W4A8方法对于Hugging Face FP16推断的实际加速效果为4倍,对于TensorRT-LLM推断引擎的FP16加速效果为2.23倍,对于TensorRT-LLM推断引擎的INT8加速效果为1.45倍,且不会对性能造成实质性的损害。
Nov, 2023
通过降阶建模和重参数化,本文提出了一种创新的大规模语言模型压缩方法,可在对内存和时间有严格限制的条件下,以逐层方式对十亿级模型进行压缩,与当前流行的结构化修剪方法相比,展现出卓越的效果。
Dec, 2023
通过跳过Transformer LLMs中后面的attention子层,可以有效地对大型语言模型进行压缩,提升性能并降低计算成本。在Llama 2 7B上观察到21%的生成速度提升,并出乎意料地改善了在多个常见基准测试中的性能。
Apr, 2024
本研究解决了大型语言模型推理过程中面临的高内存消耗和处理速度慢的问题,特别是在资源受限的设备上。通过探讨量化、知识蒸馏和剪枝等模型级压缩方法,提供了有效的压缩技术,以保持模型性能并提升其在多种平台上的可用性和实用性。
Sep, 2024
本研究解决了在本地设备上部署大语言模型时内存限制的问题。我们提出了一种名为BitStack的创新方法,这是一个无训练的权重压缩方案,能够动态调整模型大小,以实现内存使用与模型性能之间的平衡。实验证明,尽管提供了细粒度的大小控制,BitStack在极端压缩比下仍能持续匹配或超过现有的强量化基准。
Oct, 2024