大型语言模型的简单有效剪枝方法
提出一种名为LLM-Pruner的方法,在保持多任务求解和语言生成能力的同时,通过结构修剪来压缩LLM,使得压缩模型在零样本分类和生成上仍然表现出令人满意的能力,并且只需要50K数据,在3小时内就能通过调整技术(LoRA)有效地恢复性能。
May, 2023
利用结构修剪技术从预训练的大型语言模型生成更小但功能强大的语言模型。这项工作通过展示Sheared-LLaMA系列,在仅使用相当于从头训练这些模型所需计算量的3%的情况下,将LLaMA2-7B模型修剪为1.3B和2.7B参数,优于等规模的开源模型,并提供了使用结构修剪来构建更小型语言模型更具成本效益的佐证。
Oct, 2023
预训练的大型语言模型的梯度为基础的模型修剪器(GBLM-Pruner)通过利用卡尔曼几何中的几何相互关联性明显胜过其他竞争对手,并在各种语言评估中超过了幅度修剪、Wanda和SparseGPT。
Nov, 2023
本文提出了一种基于交替方向乘法器的快速最优权重更新算法来修剪大型语言模型,配合简单的迭代修剪掩码选择,在广泛范围的大型语言模型中实现了最先进的剪枝性能。
Jan, 2024
通过深度剪枝方法,我们展示出其在零样本任务性能方面可以与最近的宽度剪枝方法竞争,并且在内存受限情况下的推理速度提升尤为明显,希望这项工作能够帮助在本地和边缘设备上部署大型语言模型。
Feb, 2024
用于资源受限设备的大型语言模型结构剪枝方法,在多层结构的基础上,通过自适应建模和融合估计结果实现了对每个子结构的重要性的自适应调整,实验结果表明在主流数据集上相比最先进的方法,平均准确率提高了1.1%,1.02%,2.0%和1.2%。
Mar, 2024
在大型语言模型中,考虑到模型权重的扰动效应,我们通过优化分析和Moreau包络来提出了一种名为MoreauPruner的结构剪枝方法,能够稳定地对模型进行剪枝,并成功地与其他几种剪枝方法进行了比较。
Jun, 2024
基于优化的结构剪枝方法通过在概率空间中学习剪枝掩码,通过前向传递和策略梯度估计器进行高效优化,实现对大型语言模型的剪枝,并在复杂性和效果方面超越现有方法。
Jun, 2024
本文提出了一种Memory-effIcieNt结构化剪枝方法(MINI-LLM),通过整合大小、激活和梯度等多个指标,利用特征图敏感性进行剪枝,从而有效地降低了GPU内存的占用,并在多个下游任务上展现了优异的性能。
Jul, 2024
本研究解决了大型语言模型(LLMs)在实际应用中的庞大参数和计算开销问题,提出了一种新颖的结构化剪枝框架CFSP。该方法通过粗粒度和细粒度激活信息作为重要性标准,提高了剪枝效率,仅需一次前向传播即可完成特征激活计算,并在各类稀疏预算下表现优于现有方法。
Sep, 2024