大规模语言模型的结构剪枝——LLM-Pruner
该论文提供了针对大型语言模型的模型压缩技术的综述调查,涵盖量化、修剪、知识蒸馏等各种方法,并探讨了压缩后的大型语言模型的基准策略和评估指标,旨在促进效率和实际应用的提升,为领域的未来发展奠定了基础。
Aug, 2023
尽管现代大型语言模型在取得显著成就的同时遇到了过高的计算和内存占用问题,但最近的研究工作展示了基于裁剪和量化的无需训练和无需数据的压缩方法在压缩大型语言模型方面取得了显著成功。本研究介绍了一种名为LLM-KICK的压缩语言模型评估协议,通过其揭示了当前最先进的压缩方法的优点和缺点,并展示了稀疏化和量化对于语言理解、推理、生成、检索和摘要等任务的影响。我们希望这项研究能够促进更好的语言模型压缩方法的发展。
Oct, 2023
通过合作的剪枝算法和大型语言模型自身,在数据收集和训练成本昂贵的挑战下,Compresso通过在训练过程中学习最优的剪枝决策以及引入协同提示进一步增强了剪枝算法,成功将LLaMA-7B剪枝至5.4B,并在阅读理解上超过LLaMA-7B2.62%,在共同推理、阅读理解、MMLU和BBH基准测试上分别获得了2.21%、11.43%、7.04%和4.81%的更高分数,明显优于一次性剪枝基线。
Oct, 2023
利用结构修剪技术从预训练的大型语言模型生成更小但功能强大的语言模型。这项工作通过展示Sheared-LLaMA系列,在仅使用相当于从头训练这些模型所需计算量的3%的情况下,将LLaMA2-7B模型修剪为1.3B和2.7B参数,优于等规模的开源模型,并提供了使用结构修剪来构建更小型语言模型更具成本效益的佐证。
Oct, 2023
预训练的大型语言模型的梯度为基础的模型修剪器(GBLM-Pruner)通过利用卡尔曼几何中的几何相互关联性明显胜过其他竞争对手,并在各种语言评估中超过了幅度修剪、Wanda和SparseGPT。
Nov, 2023
通过深度剪枝方法,我们展示出其在零样本任务性能方面可以与最近的宽度剪枝方法竞争,并且在内存受限情况下的推理速度提升尤为明显,希望这项工作能够帮助在本地和边缘设备上部署大型语言模型。
Feb, 2024
基于层序之差异,我们提出了 LLM-Streamline 方法,该方法通过对模型中不重要的层进行剪枝和轻量级模型的替代训练,以减轻剪枝所引起的性能下降,并在综合实验中展示了其优于现有模型剪枝方法的效果。
Mar, 2024
通过识别关键权重,提出了一种创新的针对特定领域的压缩方法D-Pruner,通过提取关键权重,实现Compressed, domain-specific和task-agnostic的LLM,具有广泛适用性和特定性。
May, 2024
该研究针对大型语言模型在资源有限设备上部署所面临的高内存和计算成本问题,提出了一种新的无维度结构剪枝方法。此方法通过消除嵌入维度的结构依赖,提升了模型的灵活性,并在多种大型语言模型上的实验结果表明,其性能优于现有的最先进技术,验证了结构剪枝可以达到与半结构剪枝相似的准确率。
Oct, 2024