提出一种名为LLM-Pruner的方法,在保持多任务求解和语言生成能力的同时,通过结构修剪来压缩LLM,使得压缩模型在零样本分类和生成上仍然表现出令人满意的能力,并且只需要50K数据,在3小时内就能通过调整技术(LoRA)有效地恢复性能。
May, 2023
本文介绍了一种名为Wanda的裁剪方法,旨在在无需微调或权重更新的情况下诱导预训练LLMs的稀疏性,并在LLaMA上进行全面评估,实验证明Wanda在各种语言基准测试中显著优于基线剪枝方案,并与涉及大量权重更新的最近方法竞争优势。
Jun, 2023
预训练的大型语言模型的梯度为基础的模型修剪器(GBLM-Pruner)通过利用卡尔曼几何中的几何相互关联性明显胜过其他竞争对手,并在各种语言评估中超过了幅度修剪、Wanda和SparseGPT。
Nov, 2023
通过深度剪枝方法,我们展示出其在零样本任务性能方面可以与最近的宽度剪枝方法竞争,并且在内存受限情况下的推理速度提升尤为明显,希望这项工作能够帮助在本地和边缘设备上部署大型语言模型。
Feb, 2024
基于层序之差异,我们提出了 LLM-Streamline 方法,该方法通过对模型中不重要的层进行剪枝和轻量级模型的替代训练,以减轻剪枝所引起的性能下降,并在综合实验中展示了其优于现有模型剪枝方法的效果。
Mar, 2024
本研究提出了一种针对LLMs的模型修剪技术,强调深度学习模型的可解释性,并通过互信息估计和调参来指导修剪过程。同时,还探讨了大规模模型和小规模模型的修剪差异,并展示了所提出模型相对于现有模型的优越性。
May, 2024
基于优化的结构剪枝方法通过在概率空间中学习剪枝掩码,通过前向传递和策略梯度估计器进行高效优化,实现对大型语言模型的剪枝,并在复杂性和效果方面超越现有方法。
Jun, 2024
本研究解决了在有限GPU内存条件下训练大型语言模型(LLMs)时,如何利用较小的小批量来模拟更大小批量训练动态的问题。我们提出了一种子模最大化的方法,以选择小批量样本,并展示了该方法在内存需求上可减少2倍,训练速度可提升1.3倍的优势,具有重要的实际应用价值。
Jul, 2024
本研究解决了大型语言模型(LLMs)在实际应用中的庞大参数和计算开销问题,提出了一种新颖的结构化剪枝框架CFSP。该方法通过粗粒度和细粒度激活信息作为重要性标准,提高了剪枝效率,仅需一次前向传播即可完成特征激活计算,并在各类稀疏预算下表现优于现有方法。
Sep, 2024
本研究解决了大型语言模型在部署时面临的尺寸和成本问题,提出了一种利用图论中心性度量的创新剪枝方法。该方法通过创建加权有向无环图并应用加权PageRank中心性度量计算节点重要性,从而实现更高的精度保留,MLPRank和LLMRank表现出比传统方法更优的性能。
Oct, 2024