基于梯度学习的运行时剪枝加速注意力机制

Apr, 2022

基于梯度学习的运行时剪枝加速注意力机制

Accelerating Attention through Gradient-Based Learned Runtime Pruning

Zheng Li, Soroush Ghodrati, Amir Yazdanbakhsh, Hadi Esmaeilzadeh, Mingu Kang

TL;DR通过引入一个软正则化器来优化自注意力机制的计算，新提出的 LeOPArd 位串行体系结构可以在不损害平均精度的情况下提高计算速度和降低能源消耗。

Abstract

self-attention is a key enabler of state-of-art accuracy for various transformer-based Natural Language Processing models. This attention mechanism calculates a correlation score for each word with respect to the

self-attention transformer models computation pruning bit-serial architecture accuracy

发现论文，激发创造

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

分析多头自注意力：专门的头部承担重任，其余部分可被剪枝

研究了 Transformer 模型中的多头自注意力和编码器在神经机器翻译中的贡献和作用，提出了一种基于随机门和可微松弛 L0 正则化的新型剪枝方法，在不严重影响性能的情况下，成功删除了大部分注意头。

May, 2019

Transformer 模型的轻松注意力

本文通过实验表明，构建基于 relaxed attention 的 transformer 架构，可以通过抑制自动回归 transformer 解码器的内部语言模型，实现有效地整合外部语言模型，并且提高了通用 transformer 架构的正则化能力。

Sep, 2022

使用 Transformer 引导自监督学习的注意力机制

该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术，该方法利用辅助损失函数引导注意力头符合自注意力特征，并可以适用于不同的预训练目标，实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好，在低资源环境中取得了业界领先结果。

Oct, 2020

基于梯度的预训练语言模型内部注意力剪枝

本文提出了一种基于梯度的内部关注力修剪方法（GRAIN），可以解决现有算法在模型剪枝时受限于关注头大小和前馈隐藏维度的问题，并结合了知识蒸馏技术，是一个高效的模型压缩方法。

Dec, 2022

Transformer 模型的学习型 Token 裁剪

本文提出了一种新的学习 Token 修剪 (LTP) 方法，旨在优化 transformer 模型输入序列的推理成本，通过对注意力得分低于阈值的无关 Token 进行逐层自适应性的修剪，从而获得 2.5% 的性能提升和 FLOPs 降低，进而显著提高了处理器和 GPU 的吞吐量，并展示了更好的鲁棒性能。

Jul, 2021

自注意力机制下的下一个标记预测机制

自我注意力机制通过梯度下降训练能够学习自动生成下一个标记符号的自动机，其中学习步骤分为硬检索和软组合，梯度下降隐式地发现强连接组件并选择高优先级组件，以加工序列数据。

Mar, 2024

可微分的 Transformer 头部子集剪枝

本文提出了一种可微的子集剪枝技术，通过学习每个头的重要性变量并对未剪枝的头数施加用户指定的硬约束，实现对多头注意力机制的剪枝；实验证明该技术可以实现精确控制稀疏度水平，并在自然语言推理和机器翻译方面的表现不亚于以往技术。

Aug, 2021

Delta Keyword Transformer: 通过动态裁剪的多头自注意力将 Transformer 移植到边缘

该研究提出了一种动态剪枝方法，通过利用数据在不同时间点的稳定性来降低推理成本，减少了 Transformer 网络中 self-attention 操作的次数，从而在维持高准确率的同时大幅度降低了模型复杂度。

Mar, 2022

使用原则重要性和自我正则化剪枝预训练语言模型

本研究提出了一种基于等式约束的 0-1 整数线性规划问题和自我正则化机制的迭代模型修剪方法，应用于各种基于 Transformer 的 PLMs，使得在高稀疏度时具有更好的泛化性能。

May, 2023