Shapley Head Pruning: 多语言变换器中干扰的识别与消除

Oct, 2022

Shapley Head Pruning: 多语言变换器中干扰的识别与消除

Shapley Head Pruning: Identifying and Removing Interference in Multilingual Transformers

William Held, Diyi Yang

TL;DR通过识别和裁剪语言特定的参数，可以减少干扰，从而提高多语言变压器模型的性能，使用 Shapley Values 等指标来指导删除头注意力。

Abstract

multilingual transformer-based models demonstrate remarkable zero and few-shot transfer across languages by learning and reusing language-agnostic features. However, as a fixed-size model acquires more languages, its performance across all languages degrades, a phenomenon termed

multilingual transformer-based models interference parameter pruning shapley values attention visualization

发现论文，激发创造

Transformer 注意力头在多语言和跨语言任务中的贡献

该论文研究了注意力头在 Transformer 模型中的相对重要性，以帮助其在跨语言和多语言任务中的可解释性。通过大量实验，证明了在多语言 Transformer 模型中修剪注意力头可以在跨语言和多语言任务中提高模型性能，并且可以使用梯度对注意头进行排序和识别。

Aug, 2021

分析多头自注意力：专门的头部承担重任，其余部分可被剪枝

研究了 Transformer 模型中的多头自注意力和编码器在神经机器翻译中的贡献和作用，提出了一种基于随机门和可微松弛 L0 正则化的新型剪枝方法，在不严重影响性能的情况下，成功删除了大部分注意头。

May, 2019

修剪能否提高大型语言模型的效率？

通过对 Transformer 架构进行参数剪枝的优化策略，通过广泛实验和超参数选择，研究发现可以在不牺牲性能的情况下显著减少模型大小，并改善通用性能，从而在深度学习应用方面实现更可扩展和环境友好的方式。

Oct, 2023

公平感知的 Transformer 结构剪枝

通过研究注意力头对大型语言模型的公平性和性能的影响，提出一种修剪注意力头的全新方法，能减少性别偏见约 19％至 39.5％，而性能仅稍微下降。

Dec, 2023

挑选未充分利用的头部：关注网络修剪对于融合对话指代信息的头部选择的视角

通过网络修剪的角度，研究了一种特征注入的注意头选择和操作策略，并在对话摘要中进行了案例研究，结果表明通过注意头操作注入指代关系信息可以提高对话摘要的性能。

Dec, 2023

自适应稀疏 Transformer 多语言翻译

通过采用自适应的、稀疏的多语言建模结构，实现共享参数和语言特定参数的学习，提高正向转移和减轻干扰，从而达到改善翻译质量和保持推理效率的目的。与标准 Transformer 相比，我们在多项基准测试中的表现都超过了强基准，特别是在使用 100 种语言的大规模 OPUS 数据集时，对于一对多、多对一和零 shot 任务分别提高了 2.1、1.3 和 6.2 BLEU 分数，未增加推理成本。

Apr, 2021

可微分的 Transformer 头部子集剪枝

本文提出了一种可微的子集剪枝技术，通过学习每个头的重要性变量并对未剪枝的头数施加用户指定的硬约束，实现对多头注意力机制的剪枝；实验证明该技术可以实现精确控制稀疏度水平，并在自然语言推理和机器翻译方面的表现不亚于以往技术。

Aug, 2021

单次元元剪枝：减少注意力头部无关部分

本文提出了一种称为 Single-Shot Meta-Pruning 的方法，该方法致力于压缩深度预训练的 Transformer 模型，并集中于可以自适应地为不同的下游任务剪枝不必要的注意力头。与现有的预训练模型压缩方法相比，我们的方法可以降低精调和推理的开销，并且可以选择性地剪枝 50％的注意力头，对下游任务的性能几乎没有影响，甚至提供更好的文本表示。

Nov, 2020

多语言 BERT 中注意力头的可剪枝性

通过对 mBERT 进行修剪，我们 quantifying 它的鲁棒性和逐层理解其重要性，结果表明缩减其注意力容量不会影响其鲁棒性。而在跨语言任务 XNLI 中，修剪会导致准确性下降，这表明跨语言转移的鲁棒性较低。此外，编码器层的重要性受语言族和预训练语料大小的影响。

Sep, 2021

多语言翻译干扰的原因和解决方法

本文介绍了多语言机器翻译中干扰现象的主要因素，以及如何通过控制模型大小、数据大小和采样温度来减轻干扰并提升性能。

Dec, 2022