Transformer 模型的快速后训练剪枝框架

Mar, 2022

Transformer 模型的快速后训练剪枝框架

A Fast Post-Training Pruning Framework for Transformers

Woosuk Kwon, Sehoon Kim, Michael W. Mahoney, Joseph Hassoun, Kurt Keutzer...

TL;DR本文提出一种基于结构化稀疏方法的快速 Transformer 模型剪枝框架，无需重新训练即可保持高准确度，在 GLUE 和 SQuAD 数据集中分别实现了 2 倍的 FLOPs 减少和 1.56 倍的推理速度提升，在单个 GPU 上不到 3 分钟即可完成模型修剪。

Abstract

pruning is an effective way to reduce the huge inference cost of Transformer models. However, prior work on pruning Transformers requires retraining the models. This can add high training cost and high complexity

pruning transformer models post-training structured sparsity methods accuracy

发现论文，激发创造

重构网络剪枝 -- 在预训练和微调范式下

本论文研究在 NLP 领域中，对预训练的 Transformers 模型采取稀疏剪枝 (sparse pruning) 技术，相较于对其通道与层数的压缩，稀疏剪枝的效果更为显著。通过基于 GLUE 数据集的实验比较，证明本论文所采用的知识感知的稀疏剪枝方法可以实现 20 倍的参数 / FLOPs 压缩并且不会明显损失模型的性能。

Apr, 2021

F3 剪枝：一种无需训练并具有广泛适用性的剪枝策略，用于更快速和更精细的文本到视频合成

近期的文本到视频综合技术在大规模数据集上利用 Transformer 或扩散模型取得了突破，但是推断这些大规模模型代价高昂。为了解决这一问题，研究探索了两个主流的文本到视频模型（基于 Transformer 和扩散模型）的推断过程，并发现了它们在时间注意力模块中的冗余性。因此，提出了一种无需重新训练的普遍修剪策略，称为 F3-Pruning，用于修剪冗余的时间注意力权重。通过在三个数据集上对经典的基于 Transformer 的模型 CogVideo 和典型的扩散模型 Tune-A-Video 进行广泛实验，验证了 F3-Pruning 在推断加速、质量保证和广泛适用性方面的有效性。

Dec, 2023

一种用于 Vision Transformer 的快速无需训练的压缩框架

提出优化 Transformer 模型 (ViT) 部署过程中训练代价高的问题的快速无需训练压缩框架，其中包括初层的稠密特征提取器、压缩率更高的模型和利用空间关系的局部 - 全局令牌合并方法，在多个模型上实现了至多 2 倍的 FLOPS 减少和 1.8 倍的推理吞吐量提升，训练时间比现有方法节省两个数量级。

Mar, 2023

SwiftPruner: 针对高效广告相关性的强化进化剪枝

本文提出了 SwiftPruner，它是一个在线广告关键词预测的低延迟模型，采用结构剪枝的方法，利用演化搜索算法进行自动调整。通过多目标奖励来指导基因学习，优化层次稀疏模型的性能，该模型不仅在模拟测试中比其他模型具有更高的性能，而且在实际测试中更有效地降低了冷启动广告错误率。

Aug, 2022

CPU 上的快速 DistilBERT

本文介绍了一种新的在 CPU 上创建和运行快速 Transformer 模型的流水线，利用硬件感知剪枝、知识蒸馏和量化等模型压缩技术，通过优化稀疏和量化操作库的运行时引擎来提高推理效率，创造了一个 Fast DistilBERT 模型，其通过问题回答 SQuADv1.1 基准测试表现良好，性能比现有的 Neural Magic's DeepSparse 运行时性能提高了高达 50%，比 ONNX 计算时性能提升了最多 4.1 倍。

Oct, 2022

快速 Transformer 的块剪枝

本文提出了一种针对小型、快速模型的块删剪方法，可同时考虑任何大小的块并将其结构整合到微调的移动删剪范例中。这种方法可以学习删剪出底层模型的完整组件，包括注意头，比如，实验结果在速度和大小上与精简模型相比相当有竞争力，SQuAD v1 上的 2.4 倍速度、74％更小的 BERT，F1 减少 1%。

Sep, 2021

高效自动语音识别的精准结构化剪枝

本论文提出了一种新的压缩策略，利用结构剪枝和知识蒸馏来减小 Conformer 模型的模型大小和推理成本，同时保持高识别性能。该方法优于所有剪枝基线，在 LibriSpeech 基准测试中实现了 50％的模型大小减少和 28％的推理成本减少，同时最小化了性能损失。

May, 2023

约束感知和排名蒸馏的令牌剪枝用于高效的 Transformer 推理

本文提出了一种基于约束感知和排名提取的令牌剪枝方法 ToP，可在保持准确性的同时提高模型的在线推理速度。在 GLUE 基准和 SQuAD 任务上的广泛实验表明，ToP 优于现有的令牌剪枝和模型压缩方法，并提供高达 7.4 倍的实际延迟加速。

Jun, 2023

硬件友好的块结构剪枝优化 Transformer 大规模语言表示

本文研究了基于 transformer 的预训练语言模型的硬件友好型块结构裁剪技术，通过加入一项称为 “留组拉索” 的优化算法来进行裁剪操作并达到高压缩率，同时实验表明该方法适用于迁移到资源受限的边缘设备上。

Sep, 2020

面向边缘 AI 系统的自动高效 BERT 剪枝

提出 AE-BERT，一种自动和高效的 BERT 剪枝框架，可在资源受限设备上实现基于 Transformer 自然语言处理模型并提高准确性。实验结果表明，在压缩模型后，与 CPU 相比使用 AE-BERT 产生的 BERT 基础编码器子网络可以在类似的总剪枝比率下获得更高的分数，并提高推理时间。

Jun, 2022