FinerCut: 大型语言模型的精细化可解释层修剪

May, 2024

FinerCut: 大型语言模型的精细化可解释层修剪

FinerCut: Finer-grained Interpretable Layer Pruning for Large Language Models

Yang Zhang, Yawei Li, Xinpeng Wang, Qianli Shen, Barbara Plank...

TL;DR基于超参数的 Transformer 网络是大规模语言模型的最新架构。本文提出了一种名为 FinerCut 的剪枝方法，它能够剪枝 Transformer 网络中的自注意力层和前馈神经网络层，以达到模型精简、可解释、多任务的剪枝效果。与之前的工作相比，FinerCut 的效果优于大多数任务，无需微调或后剪枝重建。该方法还提供了可视化工具，以观察被剪枝的层的类型和位置，为未来高效的语言模型设计提供了灵感。

Abstract

overparametrized transformer networks are the state-of-the-art architecture for Large Language Models (LLMs). However, such models contain billions of parameters making large compute a necessity, while raising environmental concerns. To address these issues, we propose →

overparametrized transformer networks finercut layer pruning performance retention llm architecture designs

发现论文，激发创造

BlockPruner：大型语言模型的细粒度剪枝

我们提出了一种名为 BlockPruner 的新型无需训练的结构化修剪方法，通过定位多头注意力和多层感知机块中的冗余实现更精细的修剪，实验证明，与现有方法相比，BlockPruner 在各种下游任务中实现了更精确和有效的修剪。

Jun, 2024

深层网络的不合理无效性

通过对热门的开放式权重预训练 LLMs 进行实证研究，我们发现在移除大部分（最多一半）层之前，其在不同的问答基准测试中仅出现轻微性能下降；因此，层剪枝方法可以在减少计算资源的同时提高推理的内存和延迟，并暗示当前的预训练方法未充分利用网络较深层的参数，或者浅层起到了关键的存储知识的作用。

Mar, 2024

在高效基础上构建：利用结构化前馈层有效训练 LLMs

通过结构化的前馈网络，使用线性层近似来减少大型语言模型的参数数量和计算成本，同时提出一种自我引导训练的方法来改善这种近似所表现出的训练动力学，从而在训练和推断中实现高效和有效的结果。

Jun, 2024

基于层裁剪的医疗报告摘要和医学对话生成参数高效微调

本文介绍了一个包含 LoRA 和结构化层剪枝的模型微调框架，用于对医学报告进行摘要提取，并且该框架可以通过微调少量参数和剪枝一部分 Transformer 层，加速了训练速度，减少 GPU 内存的使用，并且保持自由文本生成质量的同时，提高了模型的效率和效益。

May, 2023

大规模语言模型的高效剪枝与自适应推理融合

用于资源受限设备的大型语言模型结构剪枝方法，在多层结构的基础上，通过自适应建模和融合估计结果实现了对每个子结构的重要性的自适应调整，实验结果表明在主流数据集上相比最先进的方法，平均准确率提高了 1.1％，1.02％，2.0％和 1.2％。

Mar, 2024

重构网络剪枝 -- 在预训练和微调范式下

本论文研究在 NLP 领域中，对预训练的 Transformers 模型采取稀疏剪枝 (sparse pruning) 技术，相较于对其通道与层数的压缩，稀疏剪枝的效果更为显著。通过基于 GLUE 数据集的实验比较，证明本论文所采用的知识感知的稀疏剪枝方法可以实现 20 倍的参数 / FLOPs 压缩并且不会明显损失模型的性能。

Apr, 2021

LaCo：大型语言模型通过层坍缩进行修剪

提出了一种被称为 extit {Layer Collapse (LaCo)} 的简洁的逐层修剪方法，将后置模型层折叠到先前层，实现了模型大小的快速减小而同时保留了模型结构；全面的实验表明，该方法在修剪比例为 25-30% 时保持了超过 80% 的平均任务性能，显著优于现有最先进的结构修剪方法；还进行了后训练实验证实所提出的修剪方法有效继承了原始模型的参数，并从逐层相似性的角度讨论了提出该方法的动机，评估了修剪的大型语言模型在各种修剪比例下的性能。

Feb, 2024

是滤波剪枝，还是层剪枝，这是一个问题

本文提出了 LayerPrune 框架，相较于传统基于 filter 的剪枝方法，LayerPrune 基于不同的剪枝指标实现了更高的延迟降低，并使用相同的 filter 重要性判定剪枝最不重要的层，较好地平衡了准确率和删除率。

Jul, 2020

修剪能否提高大型语言模型的效率？

通过对 Transformer 架构进行参数剪枝的优化策略，通过广泛实验和超参数选择，研究发现可以在不牺牲性能的情况下显著减少模型大小，并改善通用性能，从而在深度学习应用方面实现更可扩展和环境友好的方式。

Oct, 2023

预训练 Transformer 模型删除层的影响

通过剪枝方法，本文旨在研究是否所有预训练模型的所有网络层都对下游任务有贡献，并观察剪枝对下游 GLUE 任务的影响，结果表明可将 BERT、RoBERTa 和 XLNet 模型剪枝 40％而保持最多 98％的原始性能，并证明我们的剪枝模型与使用知识蒸馏构建的模型在大小和性能方面相当。

Apr, 2020