从密集到稀疏:对比剪枝用于更好的预训练语言模型压缩
本论文研究在 NLP 领域中,对预训练的 Transformers 模型采取稀疏剪枝 (sparse pruning) 技术,相较于对其通道与层数的压缩,稀疏剪枝的效果更为显著。通过基于 GLUE 数据集的实验比较,证明本论文所采用的知识感知的稀疏剪枝方法可以实现 20 倍的参数 / FLOPs 压缩并且不会明显损失模型的性能。
Apr, 2021
通过合作的剪枝算法和大型语言模型自身,在数据收集和训练成本昂贵的挑战下,Compresso 通过在训练过程中学习最优的剪枝决策以及引入协同提示进一步增强了剪枝算法,成功将 LLaMA-7B 剪枝至 5.4B,并在阅读理解上超过 LLaMA-7B2.62%,在共同推理、阅读理解、MMLU 和 BBH 基准测试上分别获得了 2.21%、11.43%、7.04% 和 4.81% 的更高分数,明显优于一次性剪枝基线。
Oct, 2023
在 BERT 模型的剪枝过程中,我们提出了一组成功剪枝的通用指南,包括与目标稀疏度相关的训练、稀疏化和学习率调整调度的简单方法,以及在 LLM 上进行知识蒸馏时适当参数化的重要性,这些简单的洞察力使我们在经典 BERT 剪枝基准和 SMC 基准上取得了最先进的结果,表明即使是经典的渐进磁度剪枝方法也可以以正确的方法得到竞争性的结果。
Dec, 2023
本研究提出了一种新颖的多任务语言模型压缩方法,使用剪枝方法,通过使用属性方法确定哪些神经元对于执行特定任务是必不可少的,然后对于不重要的神经元进行任务特定的修剪,进一步将该方法扩展到适用于低资源和无监督的场景。通过实验可以发现,该压缩方法不需要训练,使用少量计算资源,且不会破坏语言模型的预先训练的知识,且可以显着优于基线修剪方法,并且在未见过领域的情况下仍然保持性能。
May, 2022
本研究提出了一种基于稀疏性诱导正则化的层选择方法,用于压缩大型预训练语言模型,以提高特定任务的计算效率,并在两个基准数据集上进行了实验验证其有效性。
Apr, 2018
本研究提出了一种基于等式约束的 0-1 整数线性规划问题和自我正则化机制的迭代模型修剪方法,应用于各种基于 Transformer 的 PLMs,使得在高稀疏度时具有更好的泛化性能。
May, 2023
我们提出了一种新的数据修剪技术:Checkpoints Across Time (CAT),通过利用早期模型训练动态来识别对模型性能最相关的数据点,实现了在减少 50% 的训练数据的同时,与使用完整数据集的性能相当,且优于其他数据修剪技术。
May, 2024
本文提出了 COPAL 算法(COntinual Pruning in Adaptive Language settings)用于在持续的模型适应环境中对大型语言生成模型进行修剪,通过敏感性分析引导修剪过程,从而提高模型适应新领域的能力并增强资源效率。实证评估表明,COPAL 在效率和适应性方面优于基准模型。
May, 2024
本研究分析了两种流行的模型压缩技术对于预训练语言模型鲁棒性和泛化能力的影响,并且在样本不确定性的基础上提出了一种偏见缓解框架,用于提高模型的泛化能力。
Oct, 2021
本文介绍了一种名为 ALPS 的基于优化的框架,用于通过操作拆分技术和预条件共轭梯度后处理步骤处理修剪问题,并结合向量化和 GPU 并行性以提高效率,在修剪目标和困惑度降低方面远远超过现有方法,特别是对于高度稀疏的模型。在 OPT-30B 模型上,其稀疏度为 70%,ALPS 在 WikiText 数据集上实现了 13%的测试困惑度减少和比现有方法提高了 19%的零样本基准性能。
Jun, 2024