Transformer 注意力头在多语言和跨语言任务中的贡献

ACLAug, 2021

Transformer 注意力头在多语言和跨语言任务中的贡献

Contributions of Transformer Attention Heads in Multi- and Cross-lingual Tasks

Weicheng Ma, Kai Zhang, Renze Lou, Lili Wang, Soroush Vosoughi

TL;DR该论文研究了注意力头在 Transformer 模型中的相对重要性，以帮助其在跨语言和多语言任务中的可解释性。通过大量实验，证明了在多语言 Transformer 模型中修剪注意力头可以在跨语言和多语言任务中提高模型性能，并且可以使用梯度对注意头进行排序和识别。

Abstract

This paper studies the relative importance of attention heads in transformer-based models to aid their interpretability in cross-lingual a

attention heads transformer-based models cross-lingual multi-lingual tasks pruning

发现论文，激发创造

多语言 BERT 中注意力头的可剪枝性

通过对 mBERT 进行修剪，我们 quantifying 它的鲁棒性和逐层理解其重要性，结果表明缩减其注意力容量不会影响其鲁棒性。而在跨语言任务 XNLI 中，修剪会导致准确性下降，这表明跨语言转移的鲁棒性较低。此外，编码器层的重要性受语言族和预训练语料大小的影响。

Sep, 2021

分析多头自注意力：专门的头部承担重任，其余部分可被剪枝

研究了 Transformer 模型中的多头自注意力和编码器在神经机器翻译中的贡献和作用，提出了一种基于随机门和可微松弛 L0 正则化的新型剪枝方法，在不严重影响性能的情况下，成功删除了大部分注意头。

May, 2019

挑选未充分利用的头部：关注网络修剪对于融合对话指代信息的头部选择的视角

通过网络修剪的角度，研究了一种特征注入的注意头选择和操作策略，并在对话摘要中进行了案例研究，结果表明通过注意头操作注入指代关系信息可以提高对话摘要的性能。

Dec, 2023

十六个头真的比一个好吗？

本研究表明，即使使用多重头部训练模型，实质上也可以在测试时间删除大量的注意力头而不会对性能产生显著影响，可以通过剪枝算法进一步降低模型的复杂度、提高速度和内存效率，并提供关于哪些模型部分更依赖于多头注意力的初步证据，并发现训练动态在多头注意力带来的收益中扮演着重要角色。

May, 2019

多语言神经机器翻译模型是否包含特定于语言的注意力头？

通过对 NMT 模型的多个语言对进行实验，本文发现在自我关注和编码器解码器注意头方面的注意力头是对于特定的语言对的翻译比其他更加具有特定性，可以通过指标去评估其注意力权重的一些方面，同时还可以通过评估注意力头相对于翻译质量的重要性来对其进行系统排名，并发现最重要的注意力头在各种语言对中非常相似且几乎可以删除不那么重要的注意头而不严重影响翻译质量。

May, 2021

缓解神经机器翻译中注意力头不平等

本篇论文研究表明 Transformer 中的注意力头并不相等，为解决这个问题，提出了 HeadMask 方法，在多个语言对中实现了翻译改进。

Sep, 2020

多头注意力的优化和泛化

使用多头自注意力机制，经过一定的初始条件和训练，可以优化和推广 Transformer 模型的核心机制，获得收敛和泛化保证。

Oct, 2023

多头注意力：合作而非串联

该论文提出了一种协作式多头注意力层，该方法通过共享 key/query 投影来降低注意力层中参数的数量，可以用于任何变压器体系结构，并对语言理解、机器翻译和计算机视觉方面进行了验证和实验，并可将预训练的多头注意力层重新参数化为协同注意力层，使 key 和 query 投影的大小减小了 4 倍，而准确性和速度保持不变。

Jun, 2020

多头注意力机制下的神经机器翻译中的对齐问题

本研究旨在调查基于 Transformer 架构的多头注意力模型中的对齐问题，并证明了通过增加一个额外的对齐头可以提高 Transformer 模型的对齐抽取。通过字典引导翻译任务的模拟，我们使用所提出的方法，在与基准情况相比，使用字典时 BLEU 分数提高了 3.8％，而基准情况下提高了 2.4％的 BLEU 分数。我们还提出了对齐剪枝来加速解码，从而在保持翻译性能不变的情况下，将翻译加速了 1.8 倍。

Sep, 2018

跨注意力就是你所需要的：将预训练变换器应用于机器翻译

本研究探讨 Transformer 架构中交叉注意力在机器翻译领域迁移学习中的能力，并在从头开始训练的情况下扩展交叉注意力的研究结果，结果显示细调整仅交叉注意力参数与细调整所有参数（即整个翻译模型）的效果相似，细节说明为什么这是这种情况，并且发现以这种方式限制细调整可以产生交叉语言嵌入。研究结果可以用于减轻灾难性遗忘，实现零 - shot 翻译，并将机器翻译模型扩展到多个新语言对，减轻参数存储开销。

Apr, 2021