Shapley Head Pruning: 多语言变换器中干扰的识别与消除
该论文研究了注意力头在 Transformer 模型中的相对重要性,以帮助其在跨语言和多语言任务中的可解释性。通过大量实验,证明了在多语言 Transformer 模型中修剪注意力头可以在跨语言和多语言任务中提高模型性能,并且可以使用梯度对注意头进行排序和识别。
Aug, 2021
研究了 Transformer 模型中的多头自注意力和编码器在神经机器翻译中的贡献和作用,提出了一种基于随机门和可微松弛 L0 正则化的新型剪枝方法,在不严重影响性能的情况下,成功删除了大部分注意头。
May, 2019
通过对 Transformer 架构进行参数剪枝的优化策略,通过广泛实验和超参数选择,研究发现可以在不牺牲性能的情况下显著减少模型大小,并改善通用性能,从而在深度学习应用方面实现更可扩展和环境友好的方式。
Oct, 2023
通过研究注意力头对大型语言模型的公平性和性能的影响,提出一种修剪注意力头的全新方法,能减少性别偏见约 19%至 39.5%,而性能仅稍微下降。
Dec, 2023
通过网络修剪的角度,研究了一种特征注入的注意头选择和操作策略,并在对话摘要中进行了案例研究,结果表明通过注意头操作注入指代关系信息可以提高对话摘要的性能。
Dec, 2023
通过采用自适应的、稀疏的多语言建模结构,实现共享参数和语言特定参数的学习,提高正向转移和减轻干扰,从而达到改善翻译质量和保持推理效率的目的。与标准 Transformer 相比,我们在多项基准测试中的表现都超过了强基准,特别是在使用 100 种语言的大规模 OPUS 数据集时,对于一对多、多对一和零 shot 任务分别提高了 2.1、1.3 和 6.2 BLEU 分数,未增加推理成本。
Apr, 2021
本文提出了一种可微的子集剪枝技术,通过学习每个头的重要性变量并对未剪枝的头数施加用户指定的硬约束,实现对多头注意力机制的剪枝;实验证明该技术可以实现精确控制稀疏度水平,并在自然语言推理和机器翻译方面的表现不亚于以往技术。
Aug, 2021
本文提出了一种称为 Single-Shot Meta-Pruning 的方法,该方法致力于压缩深度预训练的 Transformer 模型,并集中于可以自适应地为不同的下游任务剪枝不必要的注意力头。与现有的预训练模型压缩方法相比,我们的方法可以降低精调和推理的开销,并且可以选择性地剪枝 50%的注意力头,对下游任务的性能几乎没有影响,甚至提供更好的文本表示。
Nov, 2020
通过对 mBERT 进行修剪,我们 quantifying 它的鲁棒性和逐层理解其重要性,结果表明缩减其注意力容量不会影响其鲁棒性。而在跨语言任务 XNLI 中,修剪会导致准确性下降,这表明跨语言转移的鲁棒性较低。此外,编码器层的重要性受语言族和预训练语料大小的影响。
Sep, 2021