该研究通过结构化剪枝方法,以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量,提高了大型语言模型的压缩效果和训练 / 推理速度,并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。
Oct, 2019
用于资源受限设备的大型语言模型结构剪枝方法,在多层结构的基础上,通过自适应建模和融合估计结果实现了对每个子结构的重要性的自适应调整,实验结果表明在主流数据集上相比最先进的方法,平均准确率提高了 1.1%,1.02%,2.0%和 1.2%。
Mar, 2024
通过重新定义全局修剪过程为可管理的、协调的子问题,并利用辅助变量进行问题分解,AdaGP 框架在 LLMs 上展示了重要的性能提升,特别是在高稀疏度范围内超越了当前最先进的方法。
Feb, 2024
预训练的大型语言模型的梯度为基础的模型修剪器(GBLM-Pruner)通过利用卡尔曼几何中的几何相互关联性明显胜过其他竞争对手,并在各种语言评估中超过了幅度修剪、Wanda 和 SparseGPT。
Nov, 2023
基于优化的结构剪枝方法通过在概率空间中学习剪枝掩码,通过前向传递和策略梯度估计器进行高效优化,实现对大型语言模型的剪枝,并在复杂性和效果方面超越现有方法。
Jun, 2024
本研究评估了基于结构化剪枝在多语言预训练语言模型上的三个方面:设置、算法和效率,并通过在九个下游任务中的实验展示了一些反直觉现象。为了方便各个稀疏度水平上的比较,我们提出了一种简单的方法 —— 动态稀疏化,它可以让模型只需要训练一次就能适应不同的模型大小。我们希望这项工作填补了关于多语言预训练模型上的结构化剪枝研究的空白,并为未来的研究提供启示。
Apr, 2022
通过提出一种新颖的名为 FLAP(基于波动的自适应结构修剪)的网络学习模型无需再训练就能进行结构修剪的框架,可以有效减少存储和提高推理速度,大大优于现有的基于结构修剪的方法,同时通过制定结构重要性度量,自适应搜索全局压缩模型,并实施补偿机制来缓解性能损失。
Dec, 2023
本文提出了一种精细的注意力头修剪方法来解决自监督预训练模型中的模型压缩问题,并介绍了直通估计量到 L0 正则化中以进一步加速修剪模型,超越 Wav2vec2.0 基准模型的表现,且具有 72% 更少的参数和两倍的推理速度。
Jun, 2023
利用上下文剪枝技术开发 Mini-GPT 来优化大型语言模型(LLMs),通过对传统 LLMs 的计算架构进行剪枝,保留核心功能同时大幅减小模型大小,此方法在多样且复杂的数据集上展现了高效性和有效性,作为构建领域特定 LLMs 的潜力方法,是未来发展的基石。
通过基于 Hessian 灵敏度感知的混合稀疏剪枝方法,我们提出了一种剪枝 LLMs 的方法,以至少达到 50% 的稀疏度,而不需要任何重新训练,该方法适应性地分配稀疏度,减少了剪枝引起的错误,同时保持了整体稀疏度水平,并且在稀疏度极高时表现出更显著的优势,此外,我们的方法与量化兼容,从而进一步压缩 LLMs。
Oct, 2023