BlockPruner:大型语言模型的细粒度剪枝
基于超参数的 Transformer 网络是大规模语言模型的最新架构。本文提出了一种名为 FinerCut 的剪枝方法,它能够剪枝 Transformer 网络中的自注意力层和前馈神经网络层,以达到模型精简、可解释、多任务的剪枝效果。与之前的工作相比,FinerCut 的效果优于大多数任务,无需微调或后剪枝重建。该方法还提供了可视化工具,以观察被剪枝的层的类型和位置,为未来高效的语言模型设计提供了灵感。
May, 2024
用于资源受限设备的大型语言模型结构剪枝方法,在多层结构的基础上,通过自适应建模和融合估计结果实现了对每个子结构的重要性的自适应调整,实验结果表明在主流数据集上相比最先进的方法,平均准确率提高了 1.1%,1.02%,2.0%和 1.2%。
Mar, 2024
通过对热门的开放式权重预训练 LLMs 进行实证研究,我们发现在移除大部分(最多一半)层之前,其在不同的问答基准测试中仅出现轻微性能下降;因此,层剪枝方法可以在减少计算资源的同时提高推理的内存和延迟,并暗示当前的预训练方法未充分利用网络较深层的参数,或者浅层起到了关键的存储知识的作用。
Mar, 2024
通过深度剪枝方法,我们展示出其在零样本任务性能方面可以与最近的宽度剪枝方法竞争,并且在内存受限情况下的推理速度提升尤为明显,希望这项工作能够帮助在本地和边缘设备上部署大型语言模型。
Feb, 2024
本研究提出了一种针对 LLMs 的模型修剪技术,强调深度学习模型的可解释性,并通过互信息估计和调参来指导修剪过程。同时,还探讨了大规模模型和小规模模型的修剪差异,并展示了所提出模型相对于现有模型的优越性。
May, 2024
基于优化的结构剪枝方法通过在概率空间中学习剪枝掩码,通过前向传递和策略梯度估计器进行高效优化,实现对大型语言模型的剪枝,并在复杂性和效果方面超越现有方法。
Jun, 2024
基于层序之差异,我们提出了 LLM-Streamline 方法,该方法通过对模型中不重要的层进行剪枝和轻量级模型的替代训练,以减轻剪枝所引起的性能下降,并在综合实验中展示了其优于现有模型剪枝方法的效果。
Mar, 2024
利用 SLEB 方法,通过消除多余的 transformer 块来优化大型语言模型的效率,加速模型的推断过程,同时不损害模型的语言能力。
Feb, 2024
本文研究了基于 transformer 的预训练语言模型的硬件友好型块结构裁剪技术,通过加入一项称为 “留组拉索” 的优化算法来进行裁剪操作并达到高压缩率,同时实验表明该方法适用于迁移到资源受限的边缘设备上。
Sep, 2020
通过使用基于相似性的度量标准,本文研究了 Transformer 中不同模块(如 Blocks、MLP 和 Attention 层)之间的冗余性变化,发现一大部分 Attention 层可以被安全剪枝,从而降低内存和计算成本,并提出了一种同时舍弃 Attention 和 MLP 层的方法,进一步提升性能和降低比率。
Jun, 2024