深层网络的不合理无效性

Mar, 2024

The Unreasonable Ineffectiveness of the Deeper Layers

Andrey Gromov, Kushal Tirumala, Hassan Shapourian, Paolo Glorioso, Daniel A. Roberts

TL;DR通过对热门的开放式权重预训练 LLMs 进行实证研究，我们发现在移除大部分（最多一半）层之前，其在不同的问答基准测试中仅出现轻微性能下降；因此，层剪枝方法可以在减少计算资源的同时提高推理的内存和延迟，并暗示当前的预训练方法未充分利用网络较深层的参数，或者浅层起到了关键的存储知识的作用。

Abstract

We empirically study a simple layer-pruning strategy for popular families of open-weight pretrained llms, finding minimal degradation of performance on different →

layer-pruning strategy open-weight pretrained llms question-answering benchmarks parameter-efficient finetuning robustness of llms

发现论文，激发创造

BlockPruner：大型语言模型的细粒度剪枝

我们提出了一种名为 BlockPruner 的新型无需训练的结构化修剪方法，通过定位多头注意力和多层感知机块中的冗余实现更精细的修剪，实验证明，与现有方法相比，BlockPruner 在各种下游任务中实现了更精确和有效的修剪。

Jun, 2024

去枝遇见低秩参数高效微调

本文提出了一个名为 LoRAPrune 的统一框架，旨在实现高性能的大规模预训练模型的高效微调和部署，其中使用了 PEFT 感知的剪枝标准和基于 Low-Rank Adaption（LoRA）的梯度值和梯度的重要性估计，通过迭代剪枝过程以最大化 PEFT 的优点来删除冗余参数，实现了高精度和高压缩比的目标。实验结果表明，我们的方法在各个任务中都达到了最先进的结果，并且在 VTAB-1k 基准测试中，使用可训练参数的仅 0.76％，产生的平均 Top-1 准确率比幅度和移动剪枝方法高 5.7％和 4.3％，在保留微调优点的同时实现与 PEFT 方法可比较的性能。

May, 2023

是滤波剪枝，还是层剪枝，这是一个问题

本文提出了 LayerPrune 框架，相较于传统基于 filter 的剪枝方法，LayerPrune 基于不同的剪枝指标实现了更高的延迟降低，并使用相同的 filter 重要性判定剪枝最不重要的层，较好地平衡了准确率和删除率。

Jul, 2020

FinerCut: 大型语言模型的精细化可解释层修剪

基于超参数的 Transformer 网络是大规模语言模型的最新架构。本文提出了一种名为 FinerCut 的剪枝方法，它能够剪枝 Transformer 网络中的自注意力层和前馈神经网络层，以达到模型精简、可解释、多任务的剪枝效果。与之前的工作相比，FinerCut 的效果优于大多数任务，无需微调或后剪枝重建。该方法还提供了可视化工具，以观察被剪枝的层的类型和位置，为未来高效的语言模型设计提供了灵感。

May, 2024

ShortGPT: 大型语言模型中的层次关系比您预期的更冗余

大型语言模型的层之间存在高相似性，某些层对网络功能没有显著作用，因此提出了一种基于层重要性评分的剪枝方法，并且该方法在模型剪枝方面明显优于先前的最新方法，同时与量化等方法相互独立，能进一步减小参数和计算量。

Mar, 2024

预训练 Transformer 模型删除层的影响

通过剪枝方法，本文旨在研究是否所有预训练模型的所有网络层都对下游任务有贡献，并观察剪枝对下游 GLUE 任务的影响，结果表明可将 BERT、RoBERTa 和 XLNet 模型剪枝 40％而保持最多 98％的原始性能，并证明我们的剪枝模型与使用知识蒸馏构建的模型在大小和性能方面相当。

Apr, 2020

LLaMA 简化：大型语言模型的简单深度修剪

通过深度剪枝方法，我们展示出其在零样本任务性能方面可以与最近的宽度剪枝方法竞争，并且在内存受限情况下的推理速度提升尤为明显，希望这项工作能够帮助在本地和边缘设备上部署大型语言模型。

Feb, 2024

基于层裁剪的医疗报告摘要和医学对话生成参数高效微调

本文介绍了一个包含 LoRA 和结构化层剪枝的模型微调框架，用于对医学报告进行摘要提取，并且该框架可以通过微调少量参数和剪枝一部分 Transformer 层，加速了训练速度，减少 GPU 内存的使用，并且保持自由文本生成质量的同时，提高了模型的效率和效益。

May, 2023

PRILoRA：修剪和增大秩的低秩适应

PRILoRA 通过在线性分配不同的秩给每一层并在训练过程中进行剪枝，考虑到权重的临时大小和给定层的输入的累积统计信息，验证了其在八个 GLUE 基准测试中的有效性，取得了最新的技术成果。

Jan, 2024

大规模语言模型的高效剪枝与自适应推理融合

用于资源受限设备的大型语言模型结构剪枝方法，在多层结构的基础上，通过自适应建模和融合估计结果实现了对每个子结构的重要性的自适应调整，实验结果表明在主流数据集上相比最先进的方法，平均准确率提高了 1.1％，1.02％，2.0％和 1.2％。

Mar, 2024