Breaking BERT:评估和优化稀疏化注意力
本文提出了一种基于学习的、实例相关的注意力机制来加速 Vision Transformers 网络,其将自注意力操作限制在空间上邻近的一组 Token 上,并通过轻量级的连接性预测器模块评估 Token 之间的连接得分来解决由结构化注意力模式引起的语义信息丧失问题,可以在保证准确率下显著减少计算量,达到更优的精度-计算复杂度平衡点,进一步结合 Token 稀疏机制,该方法可以将 Vision Transformers 网络的 FLOPs 降低超过 60%。
Mar, 2023
本研究提出一种稀释注意力机制,以解决 Transformer 网络在输入序列长度较长时的计算成本过高的问题,并证明其能够普遍逼近任何序列到序列的函数,而且具有比稠密模型更低的复杂度,最后通过实验结果验证该机制的有效性在自然语言处理任务中。
Jun, 2020
通过结合令牌修剪和令牌合并的策略,我们在基于 Transformer 模型的基础上提出了改进的方法,既提高了模型的性能,又降低了计算需求。在各种数据集上的实验证明,与基准模型相比,我们的方法在准确度上提升了 5% p,F1 得分提升了 5.6% p。此外,我们成功减少了内存成本到 0.61 倍,并实现了 1.64 倍的加速。
Jun, 2024
通过研究注意力矩阵中不同位置的重要性,我们提出了可重构性较强的 Transformer 模型 SparseBERT,并给出了 Differentiable Attention Mask 算法以进一步指导模型的设计。我们证明了对角线元素可以被移除,而不影响模型的性能。通过广泛实验,证实了我们的有趣发现和算法的有效性。
Feb, 2021
本文提出了一种通过利用视觉数据中的空间稀疏性进行模型加速的新方法,该方法基于所提出的动态令牌稀疏化框架,并通过自适应和不对称计算等方式推广到各种体系结构中,通过对不重要的特征使用轻量级快速路径和对更重要位置使用更具表现力的慢速路径,可以显著减少总体计算量,实验结果表明动态空间稀疏化为模型加速提供了新的更有效的解决方案。
Jul, 2022
我们提出了一种新方法,通过学习在训练过程中选择最具信息量的令牌表示方法来稀疏 Transformer 模型中的注意力,从而关注输入的特定部分。由于一个强大的可训练的 top-k 操作符,将二次时间和内存复杂度降低到亚线性水平。我们在一个具有挑战性的长文档摘要任务上的实验表明,即使是我们的简单基线表现也与当前的 SOTA 相当,通过可训练的池化技术,我们可以保持其最高质量,在训练过程中快 1.8 倍,推理时快 4.5 倍,并且在解码器中计算效率高达 13 倍。
Sep, 2020
我们提出了 DeSparsify,一种针对使用 token sparsification 机制的 vision transformers 的攻击,目的是耗尽操作系统的资源,同时保持其隐蔽性。我们对三种 token sparsification 技术进行了评估,并研究了攻击在它们之间的传递性及其对 GPU 资源的影响。为了减轻攻击的影响,我们提出了各种对策措施。
Feb, 2024
SparseSpikformer 是一种通过令牌和权重修剪技术实现稀疏性的共设计框架,可以显著减少模型参数 90%并减少 20%的 GFLOPs,同时保持原始模型的准确性。
Nov, 2023
本文提出一种基于句法结构的局部语义注意力机制,将其与 BERT 等预训练语言模型相结合,提高对句子中句法相关词的关注度,在单句分类和序列标注等任务中实现了一致性增益。
Dec, 2020