研究了 Transformer 模型中的多头自注意力和编码器在神经机器翻译中的贡献和作用,提出了一种基于随机门和可微松弛 L0 正则化的新型剪枝方法,在不严重影响性能的情况下,成功删除了大部分注意头。
May, 2019
通过网络修剪的角度,研究了一种特征注入的注意头选择和操作策略,并在对话摘要中进行了案例研究,结果表明通过注意头操作注入指代关系信息可以提高对话摘要的性能。
Dec, 2023
本研究表明,即使使用多重头部训练模型,实质上也可以在测试时间删除大量的注意力头而不会对性能产生显著影响,可以通过剪枝算法进一步降低模型的复杂度、提高速度和内存效率,并提供关于哪些模型部分更依赖于多头注意力的初步证据,并发现训练动态在多头注意力带来的收益中扮演着重要角色。
该研究提出了一种动态剪枝方法,通过利用数据在不同时间点的稳定性来降低推理成本,减少了 Transformer 网络中 self-attention 操作的次数,从而在维持高准确率的同时大幅度降低了模型复杂度。
Mar, 2022
本文提出了一种称为 Single-Shot Meta-Pruning 的方法,该方法致力于压缩深度预训练的 Transformer 模型,并集中于可以自适应地为不同的下游任务剪枝不必要的注意力头。与现有的预训练模型压缩方法相比,我们的方法可以降低精调和推理的开销,并且可以选择性地剪枝 50%的注意力头,对下游任务的性能几乎没有影响,甚至提供更好的文本表示。
Nov, 2020
该论文研究了注意力头在 Transformer 模型中的相对重要性,以帮助其在跨语言和多语言任务中的可解释性。通过大量实验,证明了在多语言 Transformer 模型中修剪注意力头可以在跨语言和多语言任务中提高模型性能,并且可以使用梯度对注意头进行排序和识别。
Aug, 2021
通过研究注意力头对大型语言模型的公平性和性能的影响,提出一种修剪注意力头的全新方法,能减少性别偏见约 19%至 39.5%,而性能仅稍微下降。
本文研究了适用于抽象总结的多头自注意机制的可解释性,介绍了三个度量衡来评估关注头的重要性,发现相对位置的头对总结表现至关重要,不建议弃掉,而强制稀疏性似乎不能显着提高可解释性。
Nov, 2019
使用多头自注意力机制,经过一定的初始条件和训练,可以优化和推广 Transformer 模型的核心机制,获得收敛和泛化保证。
Oct, 2023
本文提出了一种基于梯度的内部关注力修剪方法(GRAIN),可以解决现有算法在模型剪枝时受限于关注头大小和前馈隐藏维度的问题,并结合了知识蒸馏技术,是一个高效的模型压缩方法。
Dec, 2022