Transformer 模型的学习型 Token 裁剪

KDDJul, 2021

Learned Token Pruning for Transformers

Sehoon Kim, Sheng Shen, David Thorsley, Amir Gholami, Woosuk Kwon...

TL;DR本文提出了一种新的学习 Token 修剪 (LTP) 方法，旨在优化 transformer 模型输入序列的推理成本，通过对注意力得分低于阈值的无关 Token 进行逐层自适应性的修剪，从而获得 2.5% 的性能提升和 FLOPs 降低，进而显著提高了处理器和 GPU 的吞吐量，并展示了更好的鲁棒性能。

Abstract

Deploying transformer models in practice is challenging due to their inference cost, which scales quadratically with input sequence length. To address this, we present a novel →

transformer models inference cost learned token pruning threshold-based method flops reduction

发现论文，激发创造

约束感知和排名蒸馏的令牌剪枝用于高效的 Transformer 推理

本文提出了一种基于约束感知和排名提取的令牌剪枝方法 ToP，可在保持准确性的同时提高模型的在线推理速度。在 GLUE 基准和 SQuAD 任务上的广泛实验表明，ToP 优于现有的令牌剪枝和模型压缩方法，并提供高达 7.4 倍的实际延迟加速。

Jun, 2023

基于学习的阈值令牌合并和修剪用于视觉 Transformer

这篇论文介绍了一种名为 LTMP 的学习阈值符号合并和修剪方法，它通过动态确定合并和修剪的符号，以降低计算视觉变换器所需的输入符号数量，实现了在降低速率的同时保持最先进的准确性，在仅一个微调阶段的情况下比先前的方法快一个数量级以上。

Jul, 2023

Zero-TPrune：基于预训练 Transformer 的注意力图优化进行零样本 Token 裁剪

本文提出了首个零 - shot 的方法 Zero-TPrune，通过使用预先训练的 Transformer 模型的 attention 图来计算 token 的重要性和相似性，在保持高精度的前提下，大幅减少了模型的计算复杂度和推理时间。

May, 2023

学习阈值修剪

本文提出了一种新的可微分的方法来对深度神经网络进行无结构权重修剪。我们的学习阈值修剪（LTP）方法通过梯度下降学习每层的阈值，与传统方法不同。此外，通过一种新的可微分 $L_0$ 正则化，LTP 能够有效地处理具有批量归一化的体系结构。LTP 能够生成一系列越来越稀疏的网络，从中可以根据稀疏度和性能要求选择所需的修剪网络。

Feb, 2020

聚焦核心：通过裁剪令牌压缩实现高效的文档分类注意力

通过结合令牌修剪和令牌合并的策略，我们在基于 Transformer 模型的基础上提出了改进的方法，既提高了模型的性能，又降低了计算需求。在各种数据集上的实验证明，与基准模型相比，我们的方法在准确度上提升了 5% p，F1 得分提升了 5.6% p。此外，我们成功减少了内存成本到 0.61 倍，并实现了 1.64 倍的加速。

Jun, 2024

重访目标检测和实例分割的 Token 剪枝

本研究探究了基于图像分类方法的 Token 剪枝技术在目标检测和实例分割中的应用，提出了四种见解，包括：应在特征映射中保留 Token、可重激活过去剪枝的 Token 以提高模型性能、动态剪枝率比固定剪枝率更好、简单的 2 层 MLP 能有效地剪枝 Token。实验结果表明，本方法能显著加速推理速度，且与不剪枝的结果相比，性能损失仅在 0.3 mAP 以内。

Jun, 2023

Random-LTD: 随机和分层标记丢弃为大型 Transformer 带来高效训练

提出了一种新的随机层级令牌丢弃方法（“random-LTD”），通过跳过中间层中的一个子集输入令牌的计算，达到了与标准训练基线相当的准确性和显著的加速效果，可应用于更广泛的应用，并可节省约 33.3％的计算成本和 25.6％的墙钟培训时间。

Nov, 2022

面向高效和可解释的自回归转换器的动态上下文剪枝

本文提出一种采用动态修剪机制的 Autoregressive Transformers 方法，可以在保持模型表现力不变的同时，减少生成过程中上下文信息的存储和计算负担，有效地解决了推理成本过高的问题。实验证明，该方法可以高效地修剪 80% 的上下文信息，同时大幅提升推理吞吐量和节约存储空间。

May, 2023

PPT：高效视觉 Transformer 的令牌修剪和池化

通过在视觉 Transformer 模型中集成令牌剪枝和令牌汇聚技术，我们提出了一种名为令牌剪枝和汇聚 Transformer（PPT）的新型加速框架，通过启发式方法自适应地应对两种不同层次的冗余，有效降低模型复杂性同时保持其预测准确性。例如，PPT 在 ImageNet 数据集上使 DeiT-S 的 FLOPs 降低了 37%，吞吐量提高了 45% 以上，而没有准确性下降。

Oct, 2023

基于梯度学习的运行时剪枝加速注意力机制

通过引入一个软正则化器来优化自注意力机制的计算，新提出的 LeOPArd 位串行体系结构可以在不损害平均精度的情况下提高计算速度和降低能源消耗。

Apr, 2022