约束感知和排名蒸馏的令牌剪枝用于高效的 Transformer 推理

KDDJun, 2023

约束感知和排名蒸馏的令牌剪枝用于高效的 Transformer 推理

Constraint-aware and Ranking-distilled Token Pruning for Efficient Transformer Inference

Junyan Li, Li Lyna Zhang, Jiahang Xu, Yujing Wang, Shaoguang Yan...

TL;DR本文提出了一种基于约束感知和排名提取的令牌剪枝方法 ToP，可在保持准确性的同时提高模型的在线推理速度。在 GLUE 基准和 SQuAD 任务上的广泛实验表明，ToP 优于现有的令牌剪枝和模型压缩方法，并提供高达 7.4 倍的实际延迟加速。

Abstract

Deploying pre-trained transformer models like bert on downstream tasks in resource-constrained scenarios is challenging due to their high

transformer models top token pruning bert resource-constrained scenarios

发现论文，激发创造

Transformer 模型的学习型 Token 裁剪

本文提出了一种新的学习 Token 修剪 (LTP) 方法，旨在优化 transformer 模型输入序列的推理成本，通过对注意力得分低于阈值的无关 Token 进行逐层自适应性的修剪，从而获得 2.5% 的性能提升和 FLOPs 降低，进而显著提高了处理器和 GPU 的吞吐量，并展示了更好的鲁棒性能。

Jul, 2021

Zero-TPrune：基于预训练 Transformer 的注意力图优化进行零样本 Token 裁剪

本文提出了首个零 - shot 的方法 Zero-TPrune，通过使用预先训练的 Transformer 模型的 attention 图来计算 token 的重要性和相似性，在保持高精度的前提下，大幅减少了模型的计算复杂度和推理时间。

May, 2023

聚焦核心：通过裁剪令牌压缩实现高效的文档分类注意力

通过结合令牌修剪和令牌合并的策略，我们在基于 Transformer 模型的基础上提出了改进的方法，既提高了模型的性能，又降低了计算需求。在各种数据集上的实验证明，与基准模型相比，我们的方法在准确度上提升了 5% p，F1 得分提升了 5.6% p。此外，我们成功减少了内存成本到 0.61 倍，并实现了 1.64 倍的加速。

Jun, 2024

纯视觉 Transformer 中的动态令牌修剪用于语义分割

基于视觉转换器的动态令牌修剪方法（DToP）在不降低精度的情况下，降低了当前基于纯视觉转换器的语义分割方法平均 20％-35％的计算成本。

Aug, 2023

Transformer 模型的快速后训练剪枝框架

本文提出一种基于结构化稀疏方法的快速 Transformer 模型剪枝框架，无需重新训练即可保持高准确度，在 GLUE 和 SQuAD 数据集中分别实现了 2 倍的 FLOPs 减少和 1.56 倍的推理速度提升，在单个 GPU 上不到 3 分钟即可完成模型修剪。

Mar, 2022

重访目标检测和实例分割的 Token 剪枝

本研究探究了基于图像分类方法的 Token 剪枝技术在目标检测和实例分割中的应用，提出了四种见解，包括：应在特征映射中保留 Token、可重激活过去剪枝的 Token 以提高模型性能、动态剪枝率比固定剪枝率更好、简单的 2 层 MLP 能有效地剪枝 Token。实验结果表明，本方法能显著加速推理速度，且与不剪枝的结果相比，性能损失仅在 0.3 mAP 以内。

Jun, 2023

关于 ColBERT 的词元剪枝研究

本文研究了 ColBERT 模型的不同设计，通过采用 token pruning 技术对 ColBERT 模型进行优化，实现了在不降低性能的情况下减小索引大小。通过在 MS MARCO 文档上的实验，揭示了实现这种机制面临的各种挑战。

Dec, 2021

DoT: 一种高效的双 Transformer 用于具备表格的自然语言处理任务

本研究提出了一种名为 DoT 的双变形器模型，其中一个较浅的修剪变形器用于选择最佳 K 个关键词，然后一个较深的任务特定变形器将这 K 个关键词作为输入，通过优化任务特定的损失函数，两个变形器共同训练。 DoT 模型虽然产生了轻微的精度降低，但提高了训练和推理时间至少 50％。

Jun, 2021

可训练表示池化技术稀疏化 Transformer 模型

我们提出了一种新方法，通过学习在训练过程中选择最具信息量的令牌表示方法来稀疏 Transformer 模型中的注意力，从而关注输入的特定部分。由于一个强大的可训练的 top-k 操作符，将二次时间和内存复杂度降低到亚线性水平。我们在一个具有挑战性的长文档摘要任务上的实验表明，即使是我们的简单基线表现也与当前的 SOTA 相当，通过可训练的池化技术，我们可以保持其最高质量，在训练过程中快 1.8 倍，推理时快 4.5 倍，并且在解码器中计算效率高达 13 倍。

Sep, 2020

重构网络剪枝 -- 在预训练和微调范式下

本论文研究在 NLP 领域中，对预训练的 Transformers 模型采取稀疏剪枝 (sparse pruning) 技术，相较于对其通道与层数的压缩，稀疏剪枝的效果更为显著。通过基于 GLUE 数据集的实验比较，证明本论文所采用的知识感知的稀疏剪枝方法可以实现 20 倍的参数 / FLOPs 压缩并且不会明显损失模型的性能。

Apr, 2021