缓解神经机器翻译中注意力头不平等

COLINGSep, 2020

缓解神经机器翻译中注意力头不平等

Alleviating the Inequality of Attention Heads for Neural Machine Translation

Zewei Sun, Shujian Huang, Xin-Yu Dai, Jiajun Chen

TL;DR本篇论文研究表明 Transformer 中的注意力头并不相等，为解决这个问题，提出了 HeadMask 方法，在多个语言对中实现了翻译改进。

Abstract

Recent studies show that the attention heads in transformer are not equal. We relate this phenomenon to the imbalance training of multi-head atte

transformer attention heads multi-head attention headmask translation improvements

发现论文，激发创造

通过操作多头注意力生成多样化翻译

本文研究 Transform 模型在机器翻译中的应用，探讨其编码器 - 解码器多头注意力机制中，不同注意力头与翻译候选词的对应关系，提出一种操控头以生成多样化翻译的方法，并利用这些多样化翻译进行后向翻译以改进数据增强技术，并且不会严重降低翻译质量。实验结果表明，与这些多样化翻译的后向翻译可以显著提高翻译任务的性能，与之相关的对话响应生成任务的实验也验证了多样化的效果。

Nov, 2019

分析多头自注意力：专门的头部承担重任，其余部分可被剪枝

研究了 Transformer 模型中的多头自注意力和编码器在神经机器翻译中的贡献和作用，提出了一种基于随机门和可微松弛 L0 正则化的新型剪枝方法，在不严重影响性能的情况下，成功删除了大部分注意头。

May, 2019

多头注意力机制下的神经机器翻译中的对齐问题

本研究旨在调查基于 Transformer 架构的多头注意力模型中的对齐问题，并证明了通过增加一个额外的对齐头可以提高 Transformer 模型的对齐抽取。通过字典引导翻译任务的模拟，我们使用所提出的方法，在与基准情况相比，使用字典时 BLEU 分数提高了 3.8％，而基准情况下提高了 2.4％的 BLEU 分数。我们还提出了对齐剪枝来加速解码，从而在保持翻译性能不变的情况下，将翻译加速了 1.8 倍。

Sep, 2018

基于 Transformer 的机器翻译中固定编码器自注意力模式

使用简单固定的关注模式替换 Transformer 中编码器层的大多数注意力头对神经机器翻译的质量没有影响，并且在资源匮乏的情况下，甚至可以将 BLEU 评分提高 3 个点。

Feb, 2020

Transformer 注意力头在多语言和跨语言任务中的贡献

该论文研究了注意力头在 Transformer 模型中的相对重要性，以帮助其在跨语言和多语言任务中的可解释性。通过大量实验，证明了在多语言 Transformer 模型中修剪注意力头可以在跨语言和多语言任务中提高模型性能，并且可以使用梯度对注意头进行排序和识别。

Aug, 2021

多语言神经机器翻译模型是否包含特定于语言的注意力头？

通过对 NMT 模型的多个语言对进行实验，本文发现在自我关注和编码器解码器注意头方面的注意力头是对于特定的语言对的翻译比其他更加具有特定性，可以通过指标去评估其注意力权重的一些方面，同时还可以通过评估注意力头相对于翻译质量的重要性来对其进行系统排名，并发现最重要的注意力头在各种语言对中非常相似且几乎可以删除不那么重要的注意头而不严重影响翻译质量。

May, 2021

利用胶囊网络改进多头注意力

本文利用胶囊网络对多头注意力中缺乏的不同子空间之间的语义重叠问题进行优化，通过采用动态路由和期望最大化算法进行信息聚类和分离，从而对汉英翻译和英德翻译任务的 Transformer 模型进行改进。

Aug, 2019

十六个头真的比一个好吗？

本研究表明，即使使用多重头部训练模型，实质上也可以在测试时间删除大量的注意力头而不会对性能产生显著影响，可以通过剪枝算法进一步降低模型的复杂度、提高速度和内存效率，并提供关于哪些模型部分更依赖于多头注意力的初步证据，并发现训练动态在多头注意力带来的收益中扮演着重要角色。

May, 2019

抽象化摘要中的推理时间内容选择的注意力头掩蔽

本研究提出了一种简单而有效的关注头屏蔽技术，应用于编码器 - 解码器注意力以确定推断时显着的内容，对三个摘要数据集进行了演示，证明了其在数据效率和性能上的优越性。

Apr, 2021

多头注意力的优化和泛化

使用多头自注意力机制，经过一定的初始条件和训练，可以优化和推广 Transformer 模型的核心机制，获得收敛和泛化保证。

Oct, 2023