可微分的 Transformer 头部子集剪枝

ACLAug, 2021

Differentiable Subset Pruning of Transformer Heads

Jiaoda Li, Ryan Cotterell, Mrinmaya Sachan

TL;DR本文提出了一种可微的子集剪枝技术，通过学习每个头的重要性变量并对未剪枝的头数施加用户指定的硬约束，实现对多头注意力机制的剪枝；实验证明该技术可以实现精确控制稀疏度水平，并在自然语言推理和机器翻译方面的表现不亚于以往技术。

Abstract

multi-head attention, a collection of several attention mechanisms that independently attend to different parts of the input, is the key ingredient in the transformer. Recent work has shown, however, that a large

multi-head attention transformer pruning technique importance variables sparsity level control

发现论文，激发创造

分析多头自注意力：专门的头部承担重任，其余部分可被剪枝

研究了 Transformer 模型中的多头自注意力和编码器在神经机器翻译中的贡献和作用，提出了一种基于随机门和可微松弛 L0 正则化的新型剪枝方法，在不严重影响性能的情况下，成功删除了大部分注意头。

May, 2019

挑选未充分利用的头部：关注网络修剪对于融合对话指代信息的头部选择的视角

通过网络修剪的角度，研究了一种特征注入的注意头选择和操作策略，并在对话摘要中进行了案例研究，结果表明通过注意头操作注入指代关系信息可以提高对话摘要的性能。

Dec, 2023

十六个头真的比一个好吗？

本研究表明，即使使用多重头部训练模型，实质上也可以在测试时间删除大量的注意力头而不会对性能产生显著影响，可以通过剪枝算法进一步降低模型的复杂度、提高速度和内存效率，并提供关于哪些模型部分更依赖于多头注意力的初步证据，并发现训练动态在多头注意力带来的收益中扮演着重要角色。

May, 2019

Delta Keyword Transformer: 通过动态裁剪的多头自注意力将 Transformer 移植到边缘

该研究提出了一种动态剪枝方法，通过利用数据在不同时间点的稳定性来降低推理成本，减少了 Transformer 网络中 self-attention 操作的次数，从而在维持高准确率的同时大幅度降低了模型复杂度。

Mar, 2022

单次元元剪枝：减少注意力头部无关部分

本文提出了一种称为 Single-Shot Meta-Pruning 的方法，该方法致力于压缩深度预训练的 Transformer 模型，并集中于可以自适应地为不同的下游任务剪枝不必要的注意力头。与现有的预训练模型压缩方法相比，我们的方法可以降低精调和推理的开销，并且可以选择性地剪枝 50％的注意力头，对下游任务的性能几乎没有影响，甚至提供更好的文本表示。

Nov, 2020

Transformer 注意力头在多语言和跨语言任务中的贡献

该论文研究了注意力头在 Transformer 模型中的相对重要性，以帮助其在跨语言和多语言任务中的可解释性。通过大量实验，证明了在多语言 Transformer 模型中修剪注意力头可以在跨语言和多语言任务中提高模型性能，并且可以使用梯度对注意头进行排序和识别。

Aug, 2021

公平感知的 Transformer 结构剪枝

通过研究注意力头对大型语言模型的公平性和性能的影响，提出一种修剪注意力头的全新方法，能减少性别偏见约 19％至 39.5％，而性能仅稍微下降。

Dec, 2023

抽象化摘要中的多头注意力理解

本文研究了适用于抽象总结的多头自注意机制的可解释性，介绍了三个度量衡来评估关注头的重要性，发现相对位置的头对总结表现至关重要，不建议弃掉，而强制稀疏性似乎不能显着提高可解释性。

Nov, 2019

多头注意力的优化和泛化

使用多头自注意力机制，经过一定的初始条件和训练，可以优化和推广 Transformer 模型的核心机制，获得收敛和泛化保证。

Oct, 2023

基于梯度的预训练语言模型内部注意力剪枝

本文提出了一种基于梯度的内部关注力修剪方法（GRAIN），可以解决现有算法在模型剪枝时受限于关注头大小和前馈隐藏维度的问题，并结合了知识蒸馏技术，是一个高效的模型压缩方法。

Dec, 2022