面向鲁棒剪枝：一种自适应知识保留剪枝策略

Oct, 2023

面向鲁棒剪枝：一种自适应知识保留剪枝策略

Towards Robust Pruning: An Adaptive Knowledge-Retention Pruning Strategy for Language Models

Jianwei Li, Qi Lei, Wei Cheng, Dongkuan Xu

TL;DR本文提出了一种基于事先训练的知识的后期剪枝策略，旨在在剪枝过程中保留更多事先训练的知识，从而提高语言模型的鲁棒性。与其他最先进的基准方法相比，在数据集 SST2、IMDB 和 AGNews 上，我们的方法在准确性、稀疏性、鲁棒性和剪枝成本之间展现出了卓越的平衡，这是对语言模型鲁棒剪枝的一大进步。

Abstract

The pruning objective has recently extended beyond accuracy and sparsity to robustness in language models. Despite this, existing methods

pruning robustness language models pre-trained knowledge embedding space

发现论文，激发创造

无需重新训练的预训练语言模型知识保留剪枝

提出了一种名为 K-pruning (Knowledge-preserving pruning) 的准确的无需重新训练的结构化修剪算法，用于预训练的语言模型压缩，并在 SQuAD 基准测试中展示了比现有的无需重新训练的修剪算法高达 58.02% p 的 F1 分数的优势。

Aug, 2023

剪枝语言模型：重现” 稀疏可能扬声器 “基准上的准确性

在 BERT 模型的剪枝过程中，我们提出了一组成功剪枝的通用指南，包括与目标稀疏度相关的训练、稀疏化和学习率调整调度的简单方法，以及在 LLM 上进行知识蒸馏时适当参数化的重要性，这些简单的洞察力使我们在经典 BERT 剪枝基准和 SMC 基准上取得了最先进的结果，表明即使是经典的渐进磁度剪枝方法也可以以正确的方法得到竞争性的结果。

Dec, 2023

重构网络剪枝 -- 在预训练和微调范式下

本论文研究在 NLP 领域中，对预训练的 Transformers 模型采取稀疏剪枝 (sparse pruning) 技术，相较于对其通道与层数的压缩，稀疏剪枝的效果更为显著。通过基于 GLUE 数据集的实验比较，证明本论文所采用的知识感知的稀疏剪枝方法可以实现 20 倍的参数 / FLOPs 压缩并且不会明显损失模型的性能。

Apr, 2021

大型语言模型的结构裁剪

该研究通过结构化剪枝方法，以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量，提高了大型语言模型的压缩效果和训练 / 推理速度，并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。

Oct, 2019

神经语言模型修剪用于自动语音识别

我们研究了应用于基于 Transformer 的语音识别神经网络语言模型的模型修剪方法。我们探究了修剪框架的三个方面，即准则、方法和调度器，分析了它们在准确性和推理速度方面的贡献。除此之外，我们提出了一种适用于渐进式压缩模型、并可以交付多个具有不同目标尺寸的模型的低秩逼近的变体。我们的研究结果包括：a）在多种场景中，数据驱动的修剪效果优于基于幅度的修剪；b）渐进式修剪相比一次性修剪在准确性方面有更好的表现，特别是在目标尺寸较小时；c）对于中等压缩程度，低秩逼近提供了尺寸减小和推理加速之间的最佳平衡。

Oct, 2023

大规模语言模型的高效剪枝与自适应推理融合

用于资源受限设备的大型语言模型结构剪枝方法，在多层结构的基础上，通过自适应建模和融合估计结果实现了对每个子结构的重要性的自适应调整，实验结果表明在主流数据集上相比最先进的方法，平均准确率提高了 1.1％，1.02％，2.0％和 1.2％。

Mar, 2024

参数高效的 Diff 剪枝用于偏差缓解

介绍了一种模块化的架构，应用 DiffPruning 和对抗训练技术在保持语言模型存储效率的同时，减少预设受保护属性对推理结果的影响。

May, 2022

从密集到稀疏：对比剪枝用于更好的预训练语言模型压缩

我们提出了一种名为 ContrAstive Pruning（CAP）的模型压缩框架，它保留了先前模型的任务不可知知识和任务特定知识，并证明了该方法在极高稀疏度情况下均能显著提高模型性能。

Dec, 2021

对抗性训练对语言模型的稳健性和泛化能力的影响

本文比较了几种对抗训练语言模型的不同方法，包括预训练数据增强，输入空间扰动和嵌入空间扰动，发现输入空间扰动或预训练数据增强可以提高鲁棒性，而使用嵌入空间扰动可以显著提高泛化性。通过神经元的语言相关性分析表明，泛化性的提高是由于 “更加专业化” 的神经元。这是第一篇对对抗训练语言模型生成不同对抗示例方法进行深度定性分析的工作。

Nov, 2022

无需对抗样本修剪对抗鲁棒神经网络

该研究通过运用自蒸馏和信息瓶颈方案，提出新的神经网络剪枝框架，使其可以在保持鲁棒性的情况下压缩其大小并提高训练效率。

Oct, 2022