Zero-TPrune：基于预训练 Transformer 的注意力图优化进行零样本 Token 裁剪

May, 2023

Zero-TPrune：基于预训练 Transformer 的注意力图优化进行零样本 Token 裁剪

Zero-TPrune: Zero-Shot Token Pruning through Leveraging of the Attention Graph in Pre-Trained Transformers

Hongjie Wang, Bhishma Dedhia, Niraj K. Jha

TL;DR本文提出了首个零 - shot 的方法 Zero-TPrune，通过使用预先训练的 Transformer 模型的 attention 图来计算 token 的重要性和相似性，在保持高精度的前提下，大幅减少了模型的计算复杂度和推理时间。

Abstract

Deployment of transformer models on the edge is increasingly challenging due to the exponentially growing model size and inference cost that scales quadratically with the number of tokens in the input sequence. token pr

transformer models token pruning fine-tuning pre-trained transformer models zero-tprune

发现论文，激发创造

Transformer 模型的学习型 Token 裁剪

本文提出了一种新的学习 Token 修剪 (LTP) 方法，旨在优化 transformer 模型输入序列的推理成本，通过对注意力得分低于阈值的无关 Token 进行逐层自适应性的修剪，从而获得 2.5% 的性能提升和 FLOPs 降低，进而显著提高了处理器和 GPU 的吞吐量，并展示了更好的鲁棒性能。

Jul, 2021

约束感知和排名蒸馏的令牌剪枝用于高效的 Transformer 推理

本文提出了一种基于约束感知和排名提取的令牌剪枝方法 ToP，可在保持准确性的同时提高模型的在线推理速度。在 GLUE 基准和 SQuAD 任务上的广泛实验表明，ToP 优于现有的令牌剪枝和模型压缩方法，并提供高达 7.4 倍的实际延迟加速。

Jun, 2023

聚焦核心：通过裁剪令牌压缩实现高效的文档分类注意力

通过结合令牌修剪和令牌合并的策略，我们在基于 Transformer 模型的基础上提出了改进的方法，既提高了模型的性能，又降低了计算需求。在各种数据集上的实验证明，与基准模型相比，我们的方法在准确度上提升了 5% p，F1 得分提升了 5.6% p。此外，我们成功减少了内存成本到 0.61 倍，并实现了 1.64 倍的加速。

Jun, 2024

修剪自注意力的零样本多说话者文本转语音

为了实现个性化的语音生成，我们提出了一种基于稀疏关注机制的剪枝方法，用于增强 TTS 模型的泛化能力。该方法通过删除注意力权重低于阈值的冗余连接，灵活确定剪枝强度，同时改进了语音质量和说话人相似性。

Aug, 2023

单次元元剪枝：减少注意力头部无关部分

本文提出了一种称为 Single-Shot Meta-Pruning 的方法，该方法致力于压缩深度预训练的 Transformer 模型，并集中于可以自适应地为不同的下游任务剪枝不必要的注意力头。与现有的预训练模型压缩方法相比，我们的方法可以降低精调和推理的开销，并且可以选择性地剪枝 50％的注意力头，对下游任务的性能几乎没有影响，甚至提供更好的文本表示。

Nov, 2020

重访目标检测和实例分割的 Token 剪枝

本研究探究了基于图像分类方法的 Token 剪枝技术在目标检测和实例分割中的应用，提出了四种见解，包括：应在特征映射中保留 Token、可重激活过去剪枝的 Token 以提高模型性能、动态剪枝率比固定剪枝率更好、简单的 2 层 MLP 能有效地剪枝 Token。实验结果表明，本方法能显著加速推理速度，且与不剪枝的结果相比，性能损失仅在 0.3 mAP 以内。

Jun, 2023

重构网络剪枝 -- 在预训练和微调范式下

本论文研究在 NLP 领域中，对预训练的 Transformers 模型采取稀疏剪枝 (sparse pruning) 技术，相较于对其通道与层数的压缩，稀疏剪枝的效果更为显著。通过基于 GLUE 数据集的实验比较，证明本论文所采用的知识感知的稀疏剪枝方法可以实现 20 倍的参数 / FLOPs 压缩并且不会明显损失模型的性能。

Apr, 2021

Pruner-Zero: 大规模语言模型的从零开始的演化符号修剪度量

大型语言模型（LLMs）由于其庞大的规模而面临部署挑战。修剪方法通过去除权重的子集来加速，但其中许多需要重新训练，这是昂贵且计算需求高的。最近，提出了后训练修剪方法引入了新的度量标准，使得可以无需重新训练就能进行 LLMs 的修剪。然而，这些度量标准需要人工专家的参与和繁琐的试错。为了高效地确定优越的修剪度量标准，我们开发了一个自动框架来使用遗传编程搜索符号修剪度量标准。具体来说，我们设计了一个细致的搜索空间，涵盖现有的修剪度量标准，以发现潜在的符号修剪度量标准。我们提出了一种对立运算简化策略，以增加种群的多样性。通过这种方式，Pruner-Zero 允许自动生成符号修剪度量标准。基于搜索结果，我们探索了修剪度量标准与修剪后性能之间的相关性，并总结了一些原则。在语言建模和零样本任务的 LLaMA 和 LLaMA-2 上的大量实验表明，我们的 Pruner-Zero 的性能优于 SOTA 的后训练修剪方法。代码地址：https://github.com/pprp/Pruner-Zero。

Jun, 2024

SPViT：通过软件 Token 剪枝加速视觉 Transformer

通过利用输入令牌稀疏性并提出计算感知的软剪枝框架，可以大幅减少 Vision Transformer 计算成本，并满足移动设备和 FPGA 的资源规格要求，甚至在移动平台上实现 DeiT-T 的实时执行。

Dec, 2021

多头注意力自动剪枝

基于通道相似性和修剪指示器的多头注意力机制自动修剪方法，通过平衡各头通道的移除比例和通道信息的重新加权来降低计算复杂性，并在图像分类任务中表现出超越先前的高效模型和修剪方法的准确性。

May, 2024