Breaking BERT：评估和优化稀疏化注意力

Oct, 2022

Breaking BERT：评估和优化稀疏化注意力

Breaking BERT: Evaluating and Optimizing Sparsified Attention

Siddhartha Brahma, Polina Zablotskaia, David Mimno

TL;DR本研究评估了不同的稀疏模式对 Transformer 模型的性能影响，发现使用至少 78% 稀疏度的注意力机制在后期 Transformer 层中应用时，对性能影响较小，但是应用于整个模型会显著降低性能。通过算法可学习邻近连接的稀疏度，并在精度和稀疏度之间进行了细致的权衡。

Abstract

transformers allow attention between all pairs of tokens, but there is reason to believe that most of these connections - and their quadratic time and memory - may not be necessary. But which ones? We evaluate the impact of →

transformers sparsification patterns token connections performance optimization

发现论文，激发创造

本文提出了一种基于学习的、实例相关的注意力机制来加速 Vision Transformers 网络，其将自注意力操作限制在空间上邻近的一组 Token 上，并通过轻量级的连接性预测器模块评估 Token 之间的连接得分来解决由结构化注意力模式引起的语义信息丧失问题，可以在保证准确率下显著减少计算量，达到更优的精度－计算复杂度平衡点，进一步结合 Token 稀疏机制，该方法可以将 Vision Transformers 网络的 FLOPs 降低超过 60%。

Mar, 2023

$O (n)$ 连接已足够表达力：稀疏 Transformer 的通用逼近性

本研究提出一种稀释注意力机制，以解决 Transformer 网络在输入序列长度较长时的计算成本过高的问题，并证明其能够普遍逼近任何序列到序列的函数，而且具有比稠密模型更低的复杂度，最后通过实验结果验证该机制的有效性在自然语言处理任务中。

Jun, 2020

聚焦核心：通过裁剪令牌压缩实现高效的文档分类注意力

通过结合令牌修剪和令牌合并的策略，我们在基于 Transformer 模型的基础上提出了改进的方法，既提高了模型的性能，又降低了计算需求。在各种数据集上的实验证明，与基准模型相比，我们的方法在准确度上提升了 5% p，F1 得分提升了 5.6% p。此外，我们成功减少了内存成本到 0.61 倍，并实现了 1.64 倍的加速。

Jun, 2024

SparseBERT: 自注意力中重要性分析的反思

通过研究注意力矩阵中不同位置的重要性，我们提出了可重构性较强的 Transformer 模型 SparseBERT，并给出了 Differentiable Attention Mask 算法以进一步指导模型的设计。我们证明了对角线元素可以被移除，而不影响模型的性能。通过广泛实验，证实了我们的有趣发现和算法的有效性。

Feb, 2021

动态空间稀疏化：用于高效视觉 Transformer 和卷积神经网络的优化

本文提出了一种通过利用视觉数据中的空间稀疏性进行模型加速的新方法，该方法基于所提出的动态令牌稀疏化框架，并通过自适应和不对称计算等方式推广到各种体系结构中，通过对不重要的特征使用轻量级快速路径和对更重要位置使用更具表现力的慢速路径，可以显著减少总体计算量，实验结果表明动态空间稀疏化为模型加速提供了新的更有效的解决方案。

Jul, 2022

可训练表示池化技术稀疏化 Transformer 模型

我们提出了一种新方法，通过学习在训练过程中选择最具信息量的令牌表示方法来稀疏 Transformer 模型中的注意力，从而关注输入的特定部分。由于一个强大的可训练的 top-k 操作符，将二次时间和内存复杂度降低到亚线性水平。我们在一个具有挑战性的长文档摘要任务上的实验表明，即使是我们的简单基线表现也与当前的 SOTA 相当，通过可训练的池化技术，我们可以保持其最高质量，在训练过程中快 1.8 倍，推理时快 4.5 倍，并且在解码器中计算效率高达 13 倍。

Sep, 2020

总结系统编码器 - 解码器注意力中的稀疏性和句子结构

研究表明摘要任务中有稀疏的句子结构，可以用部分输入句子来限制编码器 - 解码器注意机制，并保持系统性能。

Sep, 2021

DeSparsify: 视觉 Transformer 中针对标记稀疏化机制的对抗性攻击

我们提出了 DeSparsify，一种针对使用 token sparsification 机制的 vision transformers 的攻击，目的是耗尽操作系统的资源，同时保持其隐蔽性。我们对三种 token sparsification 技术进行了评估，并研究了攻击在它们之间的传递性及其对 GPU 资源的影响。为了减轻攻击的影响，我们提出了各种对策措施。

Feb, 2024

稀疏 Spikformer：脉冲变换器的令牌和权重剪枝的协同设计框架

SparseSpikformer 是一种通过令牌和权重修剪技术实现稀疏性的共设计框架，可以显著减少模型参数 90％并减少 20％的 GFLOPs，同时保持原始模型的准确性。

Nov, 2023

利用语法感知的局部注意力提升 BERT 性能

本文提出一种基于句法结构的局部语义注意力机制，将其与 BERT 等预训练语言模型相结合，提高对句子中句法相关词的关注度，在单句分类和序列标注等任务中实现了一致性增益。

Dec, 2020