无梯度结构剪枝与未标记数据
基于优化的结构剪枝方法通过在概率空间中学习剪枝掩码,通过前向传递和策略梯度估计器进行高效优化,实现对大型语言模型的剪枝,并在复杂性和效果方面超越现有方法。
Jun, 2024
用于资源受限设备的大型语言模型结构剪枝方法,在多层结构的基础上,通过自适应建模和融合估计结果实现了对每个子结构的重要性的自适应调整,实验结果表明在主流数据集上相比最先进的方法,平均准确率提高了 1.1%,1.02%,2.0%和 1.2%。
Mar, 2024
本文研究了基于 transformer 的预训练语言模型的硬件友好型块结构裁剪技术,通过加入一项称为 “留组拉索” 的优化算法来进行裁剪操作并达到高压缩率,同时实验表明该方法适用于迁移到资源受限的边缘设备上。
Sep, 2020
通过提出一种新颖的名为 FLAP(基于波动的自适应结构修剪)的网络学习模型无需再训练就能进行结构修剪的框架,可以有效减少存储和提高推理速度,大大优于现有的基于结构修剪的方法,同时通过制定结构重要性度量,自适应搜索全局压缩模型,并实施补偿机制来缓解性能损失。
Dec, 2023
本文针对自然语言处理中使用的 BERT 和 RoBERTa 模型进行了压缩,使用结构化剪枝和专门化蒸馏相结合的方法,实现了在保持高精度的同时速度大幅提升。
Oct, 2019
提出一种名为 LLM-Pruner 的方法,在保持多任务求解和语言生成能力的同时,通过结构修剪来压缩 LLM,使得压缩模型在零样本分类和生成上仍然表现出令人满意的能力,并且只需要 50K 数据,在 3 小时内就能通过调整技术(LoRA)有效地恢复性能。
May, 2023
该研究通过结构化剪枝方法,以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量,提高了大型语言模型的压缩效果和训练 / 推理速度,并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。
Oct, 2019
该研究提出了一种新的大规模语言模型结构压缩方法 ZipLM,通过迭代的结构缩小模型的权重矩阵,实现在保证一组可行的目标加速比的同时提供最先进的压缩精度结果,并且能够在单次运行中在后训练 / 一次性和渐进压缩设置下生成一组准确的模型,其基于新的结构剪枝和知识蒸馏技术,结果表明 ZipLM 优于先前的结构压缩方法,尤其在 GPT2 模型上表现最佳。
Feb, 2023
提出 CoFi(粗细粒度剪枝)方法,该方法结合了粗细粒度模块的剪枝决策,并采用分层蒸馏策略将知识从未剪枝模型转移到已剪枝模型,使模型同时拥有与蒸馏方法相当的精度和延迟优势,而无需使用无标注数据。在 GLUE 和 SQuAD 数据集上的实验表明,CoFi 方法在速度和精度方面相对于以前的剪枝和蒸馏方法具有更高的效率和效果。
Apr, 2022
利用仅使用前向传递的方法进行结构裁剪,我们开发了 Bonsai,一种无梯度、扰动性的裁剪方法,能够生成小型、快速、准确的模型,超越梯度裁剪方法和半结构裁剪方法的性能且节约资源。
Feb, 2024