PERP: 重新思考 LLM 时代的修剪再训练范式

Dec, 2023

PERP: 重新思考 LLM 时代的修剪再训练范式

PERP: Rethinking the Prune-Retrain Paradigm in the Era of LLMs

Max Zimmer, Megi Andoni, Christoph Spiegel, Sebastian Pokutta

TL;DR通过修剪来高效地压缩神经网络，减少存储和计算需求，同时保持预测性能，我们提出了一种参数高效的修剪后重训练方法，使得修剪和重训练大规模语言模型的任务成为可能。

Abstract

neural networks can be efficiently compressed through pruning, significantly reducing storage and computational demands while maintaining predictive performance. Simple yet effective methods like Iterative Magnit

neural networks pruning retraining large language models parameter-efficient retraining

发现论文，激发创造

去枝遇见低秩参数高效微调

本文提出了一个名为 LoRAPrune 的统一框架，旨在实现高性能的大规模预训练模型的高效微调和部署，其中使用了 PEFT 感知的剪枝标准和基于 Low-Rank Adaption（LoRA）的梯度值和梯度的重要性估计，通过迭代剪枝过程以最大化 PEFT 的优点来删除冗余参数，实现了高精度和高压缩比的目标。实验结果表明，我们的方法在各个任务中都达到了最先进的结果，并且在 VTAB-1k 基准测试中，使用可训练参数的仅 0.76％，产生的平均 Top-1 准确率比幅度和移动剪枝方法高 5.7％和 4.3％，在保留微调优点的同时实现与 PEFT 方法可比较的性能。

May, 2023

深层网络的不合理无效性

通过对热门的开放式权重预训练 LLMs 进行实证研究，我们发现在移除大部分（最多一半）层之前，其在不同的问答基准测试中仅出现轻微性能下降；因此，层剪枝方法可以在减少计算资源的同时提高推理的内存和延迟，并暗示当前的预训练方法未充分利用网络较深层的参数，或者浅层起到了关键的存储知识的作用。

Mar, 2024

DRIVE: 双梯度快速迭代剪枝

现代深度神经网络 (DNNs) 由数百万个参数组成，在训练和推断过程中需要高性能计算。修剪是一个显著减少 DNNs 空间和时间复杂度的解决方案。

Apr, 2024

如何学会不再担忧并热爱重新培训

该研究探讨了神经网络剪枝的相关问题，包括学习率、训练预算、线性学习率表等，并通过提出一个简单而有效的方法来适应性地选择线性表的初始值，进而减少网络的训练时间和复杂度。

Nov, 2021

APT: 自适应剪枝和调整预训练语言模型用于高效训练和推理

通过自适应修剪和调整参数，APT 可以提高语言模型的训练和推理效率，同时保持高性能。

Jan, 2024

标签噪声下量化彩票：准确性，校准和复杂度

本文介绍了一种使用稀疏双下降方法鉴定和表征与分类任务相关的剪枝模型，该方法对网络大小变化具有鲁棒性，并表明剪枝模型不仅具有更好的计算性能，而且可以更好地表示学习中的不确定性。

Jun, 2023

大规模语言模型的优化结构裁剪方法

基于优化的结构剪枝方法通过在概率空间中学习剪枝掩码，通过前向传递和策略梯度估计器进行高效优化，实现对大型语言模型的剪枝，并在复杂性和效果方面超越现有方法。

Jun, 2024

通过准确度预测器修剪大型语言模型

基于新的剪枝方法与准确度预测模型，本研究提出一种能够自动选择最佳模型的压缩方法，实验证明其有效性和高效性。相较于基准模型，Wikitext2 和 PTB 上的困惑度分别降低了 9.48% 和 5.76%，而平均 MMLU 准确度提高了 6.28%。

Sep, 2023

修剪能否提高大型语言模型的效率？

通过对 Transformer 架构进行参数剪枝的优化策略，通过广泛实验和超参数选择，研究发现可以在不牺牲性能的情况下显著减少模型大小，并改善通用性能，从而在深度学习应用方面实现更可扩展和环境友好的方式。

Oct, 2023

重构网络剪枝 -- 在预训练和微调范式下

本论文研究在 NLP 领域中，对预训练的 Transformers 模型采取稀疏剪枝 (sparse pruning) 技术，相较于对其通道与层数的压缩，稀疏剪枝的效果更为显著。通过基于 GLUE 数据集的实验比较，证明本论文所采用的知识感知的稀疏剪枝方法可以实现 20 倍的参数 / FLOPs 压缩并且不会明显损失模型的性能。

Apr, 2021