本文提出了一个名为 LoRAPrune 的统一框架,旨在实现高性能的大规模预训练模型的高效微调和部署,其中使用了 PEFT 感知的剪枝标准和基于 Low-Rank Adaption(LoRA)的梯度值和梯度的重要性估计,通过迭代剪枝过程以最大化 PEFT 的优点来删除冗余参数,实现了高精度和高压缩比的目标。实验结果表明,我们的方法在各个任务中都达到了最先进的结果,并且在 VTAB-1k 基准测试中,使用可训练参数的仅 0.76%,产生的平均 Top-1 准确率比幅度和移动剪枝方法高 5.7%和 4.3%,在保留微调优点的同时实现与 PEFT 方法可比较的性能。
May, 2023
通过对热门的开放式权重预训练 LLMs 进行实证研究,我们发现在移除大部分(最多一半)层之前,其在不同的问答基准测试中仅出现轻微性能下降;因此,层剪枝方法可以在减少计算资源的同时提高推理的内存和延迟,并暗示当前的预训练方法未充分利用网络较深层的参数,或者浅层起到了关键的存储知识的作用。
Mar, 2024
现代深度神经网络 (DNNs) 由数百万个参数组成,在训练和推断过程中需要高性能计算。修剪是一个显著减少 DNNs 空间和时间复杂度的解决方案。
Apr, 2024
该研究探讨了神经网络剪枝的相关问题,包括学习率、训练预算、线性学习率表等,并通过提出一个简单而有效的方法来适应性地选择线性表的初始值,进而减少网络的训练时间和复杂度。
Nov, 2021
通过自适应修剪和调整参数,APT 可以提高语言模型的训练和推理效率,同时保持高性能。
Jan, 2024
本文介绍了一种使用稀疏双下降方法鉴定和表征与分类任务相关的剪枝模型,该方法对网络大小变化具有鲁棒性,并表明剪枝模型不仅具有更好的计算性能,而且可以更好地表示学习中的不确定性。
Jun, 2023
基于优化的结构剪枝方法通过在概率空间中学习剪枝掩码,通过前向传递和策略梯度估计器进行高效优化,实现对大型语言模型的剪枝,并在复杂性和效果方面超越现有方法。
Jun, 2024
基于新的剪枝方法与准确度预测模型,本研究提出一种能够自动选择最佳模型的压缩方法,实验证明其有效性和高效性。相较于基准模型,Wikitext2 和 PTB 上的困惑度分别降低了 9.48% 和 5.76%,而平均 MMLU 准确度提高了 6.28%。
Sep, 2023
通过对 Transformer 架构进行参数剪枝的优化策略,通过广泛实验和超参数选择,研究发现可以在不牺牲性能的情况下显著减少模型大小,并改善通用性能,从而在深度学习应用方面实现更可扩展和环境友好的方式。
Oct, 2023
本论文研究在 NLP 领域中,对预训练的 Transformers 模型采取稀疏剪枝 (sparse pruning) 技术,相较于对其通道与层数的压缩,稀疏剪枝的效果更为显著。通过基于 GLUE 数据集的实验比较,证明本论文所采用的知识感知的稀疏剪枝方法可以实现 20 倍的参数 / FLOPs 压缩并且不会明显损失模型的性能。
Apr, 2021