ZipLM：面向硬件感知的语言模型结构化剪枝

Feb, 2023

ZipLM：面向硬件感知的语言模型结构化剪枝

ZipLM: Hardware-Aware Structured Pruning of Language Models

Eldar Kurtic, Elias Frantar, Dan Alistarh

TL;DR该研究提出了一种新的大规模语言模型结构压缩方法 ZipLM，通过迭代的结构缩小模型的权重矩阵，实现在保证一组可行的目标加速比的同时提供最先进的压缩精度结果，并且能够在单次运行中在后训练 / 一次性和渐进压缩设置下生成一组准确的模型，其基于新的结构剪枝和知识蒸馏技术，结果表明 ZipLM 优于先前的结构压缩方法，尤其在 GPT2 模型上表现最佳。

Abstract

The breakthrough performance of large language models (LLMs) comes with large computational footprints and high deployment costs. In this paper, we progress towards resolving this problem by proposing a new structured c

structured compression large language models ziplm knowledge distillation speedup targets

发现论文，激发创造

Compresso: 结构化剪枝与合作促使学习紧凑的大型语言模型

通过合作的剪枝算法和大型语言模型自身，在数据收集和训练成本昂贵的挑战下，Compresso 通过在训练过程中学习最优的剪枝决策以及引入协同提示进一步增强了剪枝算法，成功将 LLaMA-7B 剪枝至 5.4B，并在阅读理解上超过 LLaMA-7B2.62%，在共同推理、阅读理解、MMLU 和 BBH 基准测试上分别获得了 2.21%、11.43%、7.04% 和 4.81% 的更高分数，明显优于一次性剪枝基线。

Oct, 2023

大规模语言模型的结构剪枝 ——LLM-Pruner

提出一种名为 LLM-Pruner 的方法，在保持多任务求解和语言生成能力的同时，通过结构修剪来压缩 LLM，使得压缩模型在零样本分类和生成上仍然表现出令人满意的能力，并且只需要 50K 数据，在 3 小时内就能通过调整技术（LoRA）有效地恢复性能。

May, 2023

大型语言模型的结构裁剪

该研究通过结构化剪枝方法，以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量，提高了大型语言模型的压缩效果和训练 / 推理速度，并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。

Oct, 2019

硬件友好的块结构剪枝优化 Transformer 大规模语言表示

本文研究了基于 transformer 的预训练语言模型的硬件友好型块结构裁剪技术，通过加入一项称为 “留组拉索” 的优化算法来进行裁剪操作并达到高压缩率，同时实验表明该方法适用于迁移到资源受限的边缘设备上。

Sep, 2020

大规模语言模型的优化结构裁剪方法

基于优化的结构剪枝方法通过在概率空间中学习剪枝掩码，通过前向传递和策略梯度估计器进行高效优化，实现对大型语言模型的剪枝，并在复杂性和效果方面超越现有方法。

Jun, 2024

剪枝加速的 LLaMA：通过结构化剪枝加快语言模型预训练

利用结构修剪技术从预训练的大型语言模型生成更小但功能强大的语言模型。这项工作通过展示 Sheared-LLaMA 系列，在仅使用相当于从头训练这些模型所需计算量的 3％的情况下，将 LLaMA2-7B 模型修剪为 1.3B 和 2.7B 参数，优于等规模的开源模型，并提供了使用结构修剪来构建更小型语言模型更具成本效益的佐证。

Oct, 2023

无梯度结构剪枝与未标记数据

本文提出一种基于无标签数据的梯度无关结构裁剪框架，能够在不降低准确度的情况下，显著地减少预训练模型的计算成本，从而提高大型语言模型的推理效率。

Mar, 2023

压缩 LLMs：真实很少纯粹而简单

尽管现代大型语言模型在取得显著成就的同时遇到了过高的计算和内存占用问题，但最近的研究工作展示了基于裁剪和量化的无需训练和无需数据的压缩方法在压缩大型语言模型方面取得了显著成功。本研究介绍了一种名为 LLM-KICK 的压缩语言模型评估协议，通过其揭示了当前最先进的压缩方法的优点和缺点，并展示了稀疏化和量化对于语言理解、推理、生成、检索和摘要等任务的影响。我们希望这项研究能够促进更好的语言模型压缩方法的发展。

Oct, 2023

LLM 外科医生

通过数据驱动的预训练模型压缩方法，我们可以在不牺牲性能的情况下，对大型语言模型进行剪枝，减小模型的规模。

Dec, 2023

大规模语言模型的高效剪枝与自适应推理融合

用于资源受限设备的大型语言模型结构剪枝方法，在多层结构的基础上，通过自适应建模和融合估计结果实现了对每个子结构的重要性的自适应调整，实验结果表明在主流数据集上相比最先进的方法，平均准确率提高了 1.1％，1.02％，2.0％和 1.2％。

Mar, 2024