异常值加权逐层稀疏化（OWL）：向高稀疏化去除 LLMs 的遗漏秘密配方

Oct, 2023

异常值加权逐层稀疏化（OWL）：向高稀疏化去除 LLMs 的遗漏秘密配方

Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for Pruning LLMs to High Sparsity

Lu Yin, You Wu, Zhenyu Zhang, Cheng-Yu Hsieh, Yaqing Wang...

TL;DR大语言模型（LLMs）的巨大模型规模在实际部署中引发挑战，因此针对此问题，我们对传统网络修剪技术应用于 LLMs，大量参数可以被剪枝，而不会损害性能。基于从预训练 LLMs 模型中获得的经验，我们的实验结果表明，非均匀层间稀疏性相比于均匀层间稀疏性通常具有更好的效果。为了阐明这种差异的潜在原因，我们开展了对 LLMs 内部特征分布的全面分析。在这个基础上，我们提出了一种新的 LLMs 修剪方法，包含一套特定设计为 LLMs 修剪的非均匀层间稀疏率，称为离群值加权层间稀疏（OWL）。OWL 的稀疏率与每个层中观察到的离群值比例成正比，使得层间权重稀疏性与离群值比例之间能够更加有效地对齐。我们的实证评估结果显示，OWL 相比于先前方法具有显著的优势，例如，在 70% 的高稀疏度下，我们的方法在困惑度上超过了最新的 Wanda 和 SparseGPT 方法，分别提升了 61.22 和 6.80。

Abstract

large language models (LLMs), renowned for their remarkable performance, present a challenge due to their colossal model size when it comes to practical deployment. In response to this challenge, efforts have been directed toward the application of traditional →

large language models network pruning techniques non-uniform layerwise sparsity outlier weighed layerwise sparsity performance improvement

发现论文，激发创造

OwLore：离群值加权的逐层采样低秩投影，用于内存高效的 LLM 微调

通过优化训练和内存利用，OwLore 方法在大型语言模型中实现了高效的微调和低内存占用。

May, 2024

大型语言模型的简单有效剪枝方法

本文介绍了一种名为 Wanda 的裁剪方法，旨在在无需微调或权重更新的情况下诱导预训练 LLMs 的稀疏性，并在 LLaMA 上进行全面评估，实验证明 Wanda 在各种语言基准测试中显著优于基线剪枝方案，并与涉及大量权重更新的最近方法竞争优势。

Jun, 2023

大规模语言模型的优化结构裁剪方法

基于优化的结构剪枝方法通过在概率空间中学习剪枝掩码，通过前向传递和策略梯度估计器进行高效优化，实现对大型语言模型的剪枝，并在复杂性和效果方面超越现有方法。

Jun, 2024

超越大小：梯度如何塑造大型语言模型的剪枝决策

预训练的大型语言模型的梯度为基础的模型修剪器（GBLM-Pruner）通过利用卡尔曼几何中的几何相互关联性明显胜过其他竞争对手，并在各种语言评估中超过了幅度修剪、Wanda 和 SparseGPT。

Nov, 2023

优化大型语言模型的压缩方法

基于层序之差异，我们提出了 LLM-Streamline 方法，该方法通过对模型中不重要的层进行剪枝和轻量级模型的替代训练，以减轻剪枝所引起的性能下降，并在综合实验中展示了其优于现有模型剪枝方法的效果。

Mar, 2024

基于幅度剪枝的层自适应稀疏化

这篇论文针对神经网络修剪方法提出一种基于重要性分数的全局修剪方法（LAMP），不需要人工调参或加重的计算，使用在图像分类任务上表现出优于现有算法的效果。

Oct, 2020

ALPS：面向大型语言模型的高度稀疏一次性修剪的改进优化

本文介绍了一种名为 ALPS 的基于优化的框架，用于通过操作拆分技术和预条件共轭梯度后处理步骤处理修剪问题，并结合向量化和 GPU 并行性以提高效率，在修剪目标和困惑度降低方面远远超过现有方法，特别是对于高度稀疏的模型。在 OPT-30B 模型上，其稀疏度为 70％，ALPS 在 WikiText 数据集上实现了 13％的测试困惑度减少和比现有方法提高了 19％的零样本基准性能。

Jun, 2024

大型语言模型的一次性敏感度感知混合稀疏剪枝

通过基于 Hessian 灵敏度感知的混合稀疏剪枝方法，我们提出了一种剪枝 LLMs 的方法，以至少达到 50% 的稀疏度，而不需要任何重新训练，该方法适应性地分配稀疏度，减少了剪枝引起的错误，同时保持了整体稀疏度水平，并且在稀疏度极高时表现出更显著的优势，此外，我们的方法与量化兼容，从而进一步压缩 LLMs。

Oct, 2023

序列标注的语言模型剪枝：高效的上下文表示

本研究提出了一种基于稀疏性诱导正则化的层选择方法，用于压缩大型预训练语言模型，以提高特定任务的计算效率，并在两个基准数据集上进行了实验验证其有效性。

Apr, 2018

ECoFLaP: 高效细粒度层次裁剪用于视觉 - 语言模型

通过 Efficient Coarse-to-Fine Layer-Wise Pruning 方法，LVLMs 的大规模视觉 - 语言模型能够以两阶段粗细权重修剪的方式进行模型压缩，从而在高稀疏度条件下取得显著性能改进。

Oct, 2023