修剪能否提高大型语言模型的效率?
该研究通过结构化剪枝方法,以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量,提高了大型语言模型的压缩效果和训练 / 推理速度,并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。
Oct, 2019
通过理论分析大规模语言模型的内部结构和操作机制,探讨 Transformer 及其派生体结构如何在捕获长期依赖时限制计算效率,深入挖掘训练阶段的效率瓶颈,并详细评估自适应优化算法(如 AdamW)、大规模并行计算技术和混合精度训练策略对加速收敛和减少内存占用的贡献,同时系统地回顾了模型压缩技术的最新进展,侧重于量化、修剪和知识蒸馏等策略,通过比较这些技术的理论框架及其在不同应用场景中的效果,展示了它们在显著减小模型规模和推理延迟、同时保持模型预测准确性方面的能力,并且对当前效率优化方法的局限性(如过拟合风险、压缩后性能损失控制以及算法通用性问题)进行了批判性审查,提出了未来研究的一些展望,最终为理解大规模语言模型的效率优化提供了全面的理论框架。
May, 2024
本论文研究在 NLP 领域中,对预训练的 Transformers 模型采取稀疏剪枝 (sparse pruning) 技术,相较于对其通道与层数的压缩,稀疏剪枝的效果更为显著。通过基于 GLUE 数据集的实验比较,证明本论文所采用的知识感知的稀疏剪枝方法可以实现 20 倍的参数 / FLOPs 压缩并且不会明显损失模型的性能。
Apr, 2021
通过剪枝方法,本文旨在研究是否所有预训练模型的所有网络层都对下游任务有贡献,并观察剪枝对下游 GLUE 任务的影响,结果表明可将 BERT、RoBERTa 和 XLNet 模型剪枝 40%而保持最多 98%的原始性能,并证明我们的剪枝模型与使用知识蒸馏构建的模型在大小和性能方面相当。
Apr, 2020
本研究提出了一种针对 LLMs 的模型修剪技术,强调深度学习模型的可解释性,并通过互信息估计和调参来指导修剪过程。同时,还探讨了大规模模型和小规模模型的修剪差异,并展示了所提出模型相对于现有模型的优越性。
May, 2024
本文研究了基于 transformer 的预训练语言模型的硬件友好型块结构裁剪技术,通过加入一项称为 “留组拉索” 的优化算法来进行裁剪操作并达到高压缩率,同时实验表明该方法适用于迁移到资源受限的边缘设备上。
Sep, 2020
本研究提出了一种基于等式约束的 0-1 整数线性规划问题和自我正则化机制的迭代模型修剪方法,应用于各种基于 Transformer 的 PLMs,使得在高稀疏度时具有更好的泛化性能。
May, 2023
我们研究了应用于基于 Transformer 的语音识别神经网络语言模型的模型修剪方法。我们探究了修剪框架的三个方面,即准则、方法和调度器,分析了它们在准确性和推理速度方面的贡献。除此之外,我们提出了一种适用于渐进式压缩模型、并可以交付多个具有不同目标尺寸的模型的低秩逼近的变体。我们的研究结果包括:a)在多种场景中,数据驱动的修剪效果优于基于幅度的修剪;b)渐进式修剪相比一次性修剪在准确性方面有更好的表现,特别是在目标尺寸较小时;c)对于中等压缩程度,低秩逼近提供了尺寸减小和推理加速之间的最佳平衡。
Oct, 2023
本文探讨在资源受限环境下,通过模型剪枝来压缩神经网络模型的方法,提出了一种简单、直接、易于应用的逐渐剪枝技术,并在多个模型 / 数据集上进行了比较,发现大型稀疏模型在保持较高精度的同时可减少 10 倍的参数数量。
Oct, 2017