超越大小:梯度如何塑造大型语言模型的剪枝决策
提出一种名为LLM-Pruner的方法,在保持多任务求解和语言生成能力的同时,通过结构修剪来压缩LLM,使得压缩模型在零样本分类和生成上仍然表现出令人满意的能力,并且只需要50K数据,在3小时内就能通过调整技术(LoRA)有效地恢复性能。
May, 2023
本文介绍了一种名为Wanda的裁剪方法,旨在在无需微调或权重更新的情况下诱导预训练LLMs的稀疏性,并在LLaMA上进行全面评估,实验证明Wanda在各种语言基准测试中显著优于基线剪枝方案,并与涉及大量权重更新的最近方法竞争优势。
Jun, 2023
通过对Transformer架构进行参数剪枝的优化策略,通过广泛实验和超参数选择,研究发现可以在不牺牲性能的情况下显著减少模型大小,并改善通用性能,从而在深度学习应用方面实现更可扩展和环境友好的方式。
Oct, 2023
在 BERT 模型的剪枝过程中,我们提出了一组成功剪枝的通用指南,包括与目标稀疏度相关的训练、稀疏化和学习率调整调度的简单方法,以及在 LLM 上进行知识蒸馏时适当参数化的重要性,这些简单的洞察力使我们在经典 BERT 剪枝基准和 SMC 基准上取得了最先进的结果,表明即使是经典的渐进磁度剪枝方法也可以以正确的方法得到竞争性的结果。
Dec, 2023
通过深度剪枝方法,我们展示出其在零样本任务性能方面可以与最近的宽度剪枝方法竞争,并且在内存受限情况下的推理速度提升尤为明显,希望这项工作能够帮助在本地和边缘设备上部署大型语言模型。
Feb, 2024
大型语言模型(LLMs)由于其庞大的规模而面临部署挑战。修剪方法通过去除权重的子集来加速,但其中许多需要重新训练,这是昂贵且计算需求高的。最近,提出了后训练修剪方法引入了新的度量标准,使得可以无需重新训练就能进行LLMs的修剪。然而,这些度量标准需要人工专家的参与和繁琐的试错。为了高效地确定优越的修剪度量标准,我们开发了一个自动框架来使用遗传编程搜索符号修剪度量标准。具体来说,我们设计了一个细致的搜索空间,涵盖现有的修剪度量标准,以发现潜在的符号修剪度量标准。我们提出了一种对立运算简化策略,以增加种群的多样性。通过这种方式,Pruner-Zero允许自动生成符号修剪度量标准。基于搜索结果,我们探索了修剪度量标准与修剪后性能之间的相关性,并总结了一些原则。在语言建模和零样本任务的LLaMA和LLaMA-2上的大量实验表明,我们的Pruner-Zero的性能优于SOTA的后训练修剪方法。代码地址:https://github.com/pprp/Pruner-Zero。
Jun, 2024
在大型语言模型中,考虑到模型权重的扰动效应,我们通过优化分析和Moreau包络来提出了一种名为MoreauPruner的结构剪枝方法,能够稳定地对模型进行剪枝,并成功地与其他几种剪枝方法进行了比较。
Jun, 2024
基于优化的结构剪枝方法通过在概率空间中学习剪枝掩码,通过前向传递和策略梯度估计器进行高效优化,实现对大型语言模型的剪枝,并在复杂性和效果方面超越现有方法。
Jun, 2024
我们提出了一种名为BlockPruner的新型无需训练的结构化修剪方法,通过定位多头注意力和多层感知机块中的冗余实现更精细的修剪,实验证明,与现有方法相比,BlockPruner在各种下游任务中实现了更精确和有效的修剪。
Jun, 2024
本文提出了一种Memory-effIcieNt结构化剪枝方法(MINI-LLM),通过整合大小、激活和梯度等多个指标,利用特征图敏感性进行剪枝,从而有效地降低了GPU内存的占用,并在多个下游任务上展现了优异的性能。
Jul, 2024