聚焦核心：通过裁剪令牌压缩实现高效的文档分类注意力

EMNLPJun, 2024

聚焦核心：通过裁剪令牌压缩实现高效的文档分类注意力

Focus on the Core: Efficient Attention via Pruned Token Compression for Document Classification

Jungmin Yun, Mihyeon Kim, Youngbin Kim

TL;DR通过结合令牌修剪和令牌合并的策略，我们在基于 Transformer 模型的基础上提出了改进的方法，既提高了模型的性能，又降低了计算需求。在各种数据集上的实验证明，与基准模型相比，我们的方法在准确度上提升了 5% p，F1 得分提升了 5.6% p。此外，我们成功减少了内存成本到 0.61 倍，并实现了 1.64 倍的加速。

Abstract

transformer-based models have achieved dominant performance in numerous NLP tasks. Despite their remarkable successes, pre-trained transformers such as BERT suffer from a computationally expensive self-attention mechani

transformer-based models self-attention mechanism token pruning token combining computational demands

发现论文，激发创造

关于 ColBERT 的词元剪枝研究

本文研究了 ColBERT 模型的不同设计，通过采用 token pruning 技术对 ColBERT 模型进行优化，实现了在不降低性能的情况下减小索引大小。通过在 MS MARCO 文档上的实验，揭示了实现这种机制面临的各种挑战。

Dec, 2021

约束感知和排名蒸馏的令牌剪枝用于高效的 Transformer 推理

本文提出了一种基于约束感知和排名提取的令牌剪枝方法 ToP，可在保持准确性的同时提高模型的在线推理速度。在 GLUE 基准和 SQuAD 任务上的广泛实验表明，ToP 优于现有的令牌剪枝和模型压缩方法，并提供高达 7.4 倍的实际延迟加速。

Jun, 2023

Zero-TPrune：基于预训练 Transformer 的注意力图优化进行零样本 Token 裁剪

本文提出了首个零 - shot 的方法 Zero-TPrune，通过使用预先训练的 Transformer 模型的 attention 图来计算 token 的重要性和相似性，在保持高精度的前提下，大幅减少了模型的计算复杂度和推理时间。

May, 2023

重访目标检测和实例分割的 Token 剪枝

本研究探究了基于图像分类方法的 Token 剪枝技术在目标检测和实例分割中的应用，提出了四种见解，包括：应在特征映射中保留 Token、可重激活过去剪枝的 Token 以提高模型性能、动态剪枝率比固定剪枝率更好、简单的 2 层 MLP 能有效地剪枝 Token。实验结果表明，本方法能显著加速推理速度，且与不剪枝的结果相比，性能损失仅在 0.3 mAP 以内。

Jun, 2023

Transformer 模型的学习型 Token 裁剪

本文提出了一种新的学习 Token 修剪 (LTP) 方法，旨在优化 transformer 模型输入序列的推理成本，通过对注意力得分低于阈值的无关 Token 进行逐层自适应性的修剪，从而获得 2.5% 的性能提升和 FLOPs 降低，进而显著提高了处理器和 GPU 的吞吐量，并展示了更好的鲁棒性能。

Jul, 2021

基于预训练句子嵌入的长文档分类的注意力机制

通过利用预训练的句子 transformers 对语义有意义的嵌入进行组合，结合文档长度线性扩展的小的注意力层，我们得到了与当前最先进模型竞争力的结果，特别是在冻结底层 transformers 的情况下，有助于避免完全微调。通过两个额外的实验进一步评估所研究的架构在比较简单的基线上的相关性。

Jul, 2023

通过注意力值压缩输入长度和生成文本

本文研究了 BERT 的注意力机制，探究了两个问题：如何使用注意力机制减少输入长度和如何将注意力用作条件文本生成的控制机制，并发现 BERT 的早期层对文本分类任务的关注度更高，其注意力和可以用于过滤给定序列的令牌，一定程度上减少了输入长度同时保持良好的测试准确性。

Mar, 2023

PPT：高效视觉 Transformer 的令牌修剪和池化

通过在视觉 Transformer 模型中集成令牌剪枝和令牌汇聚技术，我们提出了一种名为令牌剪枝和汇聚 Transformer（PPT）的新型加速框架，通过启发式方法自适应地应对两种不同层次的冗余，有效降低模型复杂性同时保持其预测准确性。例如，PPT 在 ImageNet 数据集上使 DeiT-S 的 FLOPs 降低了 37%，吞吐量提高了 45% 以上，而没有准确性下降。

Oct, 2023

高效 BERT 预训练的 Token Dropping

提出了一种基于 token dropping 方法的简单有效的预训练加速技术，可以在不影响下游任务性能的前提下，将 BERT 的预训练成本减少 25%。该方法通过在中间层开始丢弃不重要的 token，使模型更专注于重要的 token，然后让最后一层重新生成完整的序列，这可以通过利用 Masked Language Modeling 的已建成的 loss 函数来实现，计算代价几乎为零。

Mar, 2022

重构网络剪枝 -- 在预训练和微调范式下

本论文研究在 NLP 领域中，对预训练的 Transformers 模型采取稀疏剪枝 (sparse pruning) 技术，相较于对其通道与层数的压缩，稀疏剪枝的效果更为显著。通过基于 GLUE 数据集的实验比较，证明本论文所采用的知识感知的稀疏剪枝方法可以实现 20 倍的参数 / FLOPs 压缩并且不会明显损失模型的性能。

Apr, 2021