SNP：结构化神经元级剪枝以保持注意力分数

Apr, 2024

SNP：结构化神经元级剪枝以保持注意力分数

SNP: Structured Neuron-level Pruning to Preserve Attention Scores

Kyunghwan Shim, Jaewoong Yun, Shinkook Choi

TL;DR我们提出了一种新颖的图感知神经元级剪枝方法（SNP），通过剪枝数据图中信息较少的注意力分数和消除多头冗余，有效压缩和加速基于 Transformer 的模型，适用于边缘设备和服务器处理器。

Abstract

multi-head self-attention (MSA) is a key component of vision transformers (ViTs), which have achieved great success in various vision tasks. However, their high computational cost and memory footprint hinder thei

multi-head self-attention vision transformers neuron-level pruning graph-aware pruning transformer-based models

发现论文，激发创造

SPViT：通过软件 Token 剪枝加速视觉 Transformer

通过利用输入令牌稀疏性并提出计算感知的软剪枝框架，可以大幅减少 Vision Transformer 计算成本，并满足移动设备和 FPGA 的资源规格要求，甚至在移动平台上实现 DeiT-T 的实时执行。

Dec, 2021

面向任务的语音表示模型的结构化剪枝

本文提出了一种精细的注意力头修剪方法来解决自监督预训练模型中的模型压缩问题，并介绍了直通估计量到 L0 正则化中以进一步加速修剪模型，超越 Wav2vec2.0 基准模型的表现，且具有 72% 更少的参数和两倍的推理速度。

Jun, 2023

GOHSP：视觉 Transformer 的图结构和基于优化的异构结构剪枝统一框架

本文提出了 GOHSP，一个统一的基于图形和优化的结构化剪枝框架，用于基于 ViT 模型的计算机视觉任务的参数压缩，达到了优秀的剪枝效果，例如，在 CIFAR-10 数据集上，使用本文的方法可以将 ViT-Small 模型的参数减少 40％，并不会损失准确性，在 ImageNet 数据集上，使用本文的方法，DeiT-Tiny 和 DeiT-Small 模型可以获得比现有的结构化剪枝方法更高的准确性。

Jan, 2023

单次元元剪枝：减少注意力头部无关部分

本文提出了一种称为 Single-Shot Meta-Pruning 的方法，该方法致力于压缩深度预训练的 Transformer 模型，并集中于可以自适应地为不同的下游任务剪枝不必要的注意力头。与现有的预训练模型压缩方法相比，我们的方法可以降低精调和推理的开销，并且可以选择性地剪枝 50％的注意力头，对下游任务的性能几乎没有影响，甚至提供更好的文本表示。

Nov, 2020

基于自适应激活的结构化剪枝

本文提出了一种自适应基于激活的结构化裁剪方法，以自动高效地生成满足用户要求的小型、准确和硬件高效的模型，它提出了迭代性结构化裁剪和自适应剪枝策略，可在不降低精度的情况下大幅减少参数和 FLOPs

Jan, 2022

基于 Hessian 感知显著性的全局 Vision Transformer 压缩

本研究提出了一种称为 NViT 的基于 Hessian 的全局结构裁剪方法，能够比以往更高效地利用 ViT 模型的参数，使得 NViT-Base 在 ImageNet-1K 数据集上具备了比 DeiT-Base 更高的准确率、更低的 FLOPs 和参数数量以及更快的运行速度。

Oct, 2021

自适应稀疏结构的剪枝和再生在脉冲神经网络中的应用

本文提出了一种适应性结构发展的 SNN 方法，引入树突棘突触可塑性、神经元修剪和突触再生，通过神经元修剪、突触限制和突触再生等机制，检测和移除了 SNN 的大量冗余，实现了优化压缩并降低网络能耗。在实验中表明，该方法可以在不同任务中学习适当的压缩率并显著降低网络能耗。

Nov, 2022

LPViT：低功耗半结构化剪枝用于视觉 Transformer

该论文介绍了一种新的块结构剪枝方法，用于解决视觉转换器的资源密集问题，通过均衡的权衡准确性和硬件加速，使其在保持高性能的同时减少资源需求。实验结果表明，该方法在不同的视觉转换器架构下通过其他剪枝方法实现了竞争性的性能，并在精度保持和功耗节省之间实现了显著的平衡。

Jul, 2024

分析多头自注意力：专门的头部承担重任，其余部分可被剪枝

研究了 Transformer 模型中的多头自注意力和编码器在神经机器翻译中的贡献和作用，提出了一种基于随机门和可微松弛 L0 正则化的新型剪枝方法，在不严重影响性能的情况下，成功删除了大部分注意头。

May, 2019

神经修剪：一种用于大型语言模型的基于神经网络的拓扑稀疏训练算法

基于 Transformers 的语言模型在自然语言处理中表现出色，但训练和推理仍然是一个重要的障碍。我们通过神经网络的角度来探索稀疏性方法，利用生物网络中的机制，如优先连接和冗余突触修剪，展示了基于模型的稀疏性方法在多样的 NLP 任务中表现出色，并且在训练时间上可快速到 10 倍，同时在许多情况下推理时间也有明显的改善。

Feb, 2024