大型语言模型的一次性敏感度感知混合稀疏剪枝

Oct, 2023

大型语言模型的一次性敏感度感知混合稀疏剪枝

One-Shot Sensitivity-Aware Mixed Sparsity Pruning for Large Language Models

Hang Shao, Bei Liu, Yanmin Qian

TL;DR通过基于 Hessian 灵敏度感知的混合稀疏剪枝方法，我们提出了一种剪枝 LLMs 的方法，以至少达到 50% 的稀疏度，而不需要任何重新训练，该方法适应性地分配稀疏度，减少了剪枝引起的错误，同时保持了整体稀疏度水平，并且在稀疏度极高时表现出更显著的优势，此外，我们的方法与量化兼容，从而进一步压缩 LLMs。

Abstract

Various large language models(LLMs) from the Generative Pretrained Transformer~(GPT) family have achieved outstanding performances in a wide range of text generation tasks. However, the enormous model sizes have hindered their practical use in real-world applications due to high infere

large language models generative pretrained transformer llm studies sparsity pruning quantization

发现论文，激发创造

SparseGPT：一次修剪即可在大型语言模型上进行精准压缩

本文提出了一种名为 SparseGPT 的新型剪枝方法，能够高效、准确地应用于海量的 GPT 模型，实现一次性稀疏化至少 50％，并在几乎不影响困惑度的情况下，将最大可用的开源模型 OPT-175B 和 BLOOM-176B 稀疏化至 60％。

Jan, 2023

高稀疏性基础 Llama 模型的高效预训练和部署

通过稀疏性，我们能够以较小的模型实现更快的训练和推理加速，并且不牺牲准确性。

May, 2024

SqueezeLLM：紧密稀疏量化

通过引入 SqueezeLLM 后训练的量化框架，该框架不仅实现了高达 3 位的无损压缩，还在相同的内存约束下实现了更高的量化性能，可以将羊毛出在羊身上，仿佛神器一般。

Jun, 2023

大语言模型推理加速的稀疏微调

我们研究了大型语言模型的精确稀疏微调问题，通过引入稀疏权重在专门的任务上微调预训练的语言模型。我们提出了一种称为 SquareHead 的基于 L2 范数的蒸馏方法，能够在高稀疏率下实现准确恢复，并展示了稀疏语言模型在 CPU 和 GPU 执行中的速度提升。

Oct, 2023

超越大小：梯度如何塑造大型语言模型的剪枝决策

预训练的大型语言模型的梯度为基础的模型修剪器（GBLM-Pruner）通过利用卡尔曼几何中的几何相互关联性明显胜过其他竞争对手，并在各种语言评估中超过了幅度修剪、Wanda 和 SparseGPT。

Nov, 2023

Mini-GPTs: 基于上下文剪枝的高效大型语言模型

利用上下文剪枝技术开发 Mini-GPT 来优化大型语言模型（LLMs），通过对传统 LLMs 的计算架构进行剪枝，保留核心功能同时大幅减小模型大小，此方法在多样且复杂的数据集上展现了高效性和有效性，作为构建领域特定 LLMs 的潜力方法，是未来发展的基石。

Dec, 2023

E-Sparse: 通过基于熵的 N:M 稀疏性提升大型语言模型推理

传统修剪方法在大型语言模型中的使用具有挑战性，因为训练过程代价高且计算需求大。我们首次引入隐藏状态特征的信息熵作为修剪度量设计，即 E-Sparse，以提高大型语言模型的 N:M 稀疏性准确性，并通过引入信息熵和几种创新技术来快速优化信息分布和应对 N:M 稀疏性对准确性的影响。E-Sparse 通过 FasterTransformer 实现为 Sparse-GEMM，并在 NVIDIA Ampere GPU 上运行。对 LLaMA 系列和 OPT 模型进行的广泛实验表明，E-Sparse 可以显著加速模型推理（高达 1.53 倍），并实现显著的内存节省（高达 43.52%），在可接受的准确性损失范围内。

Oct, 2023

一次性剪枝：稀疏预训练语言模型

通过结合权重剪枝和模型蒸馏技术，我们提出了一种新的方法，用于训练稀疏的预训练变压器语言模型，这些模型可以快速高效地用于各种自然语言处理任务，并保持其稀疏性，同时我们进一步使用量化感知训练来将这些稀疏模型压缩为 8 位精度。我们证明了我们的稀疏预训练 BERT-Base、BERT-Large 和 DistilBERT 可以在多种自然语言任务中以极小的准确度损失传输其知识，是目前压缩 - to - 准确度比率最好的压缩 BERT-Base、BERT-Large 和 DistilBERT 方法。

Nov, 2021

剪枝语言模型：重现” 稀疏可能扬声器 “基准上的准确性

在 BERT 模型的剪枝过程中，我们提出了一组成功剪枝的通用指南，包括与目标稀疏度相关的训练、稀疏化和学习率调整调度的简单方法，以及在 LLM 上进行知识蒸馏时适当参数化的重要性，这些简单的洞察力使我们在经典 BERT 剪枝基准和 SMC 基准上取得了最先进的结果，表明即使是经典的渐进磁度剪枝方法也可以以正确的方法得到竞争性的结果。

Dec, 2023

结合多种后训练技术实现最高效的量化 LLMs

通过 quantization 技术，结合 SmoothQuant 和 GPTQ 两种 post-training 技术，将模型量化为 MX 格式，能够显著减小优化型模型大小至多 4 倍，提高 LLaMA 模型大小至多 3 倍，同时仅仅增加 1-3% 的困惑度。

May, 2024