多头注意力机制下的神经机器翻译中的对齐问题

Sep, 2018

多头注意力机制下的神经机器翻译中的对齐问题

On The Alignment Problem In Multi-Head Attention-Based Neural Machine Translation

Tamer Alkhouli, Gabriel Bretschner, Hermann Ney

TL;DR本研究旨在调查基于 Transformer 架构的多头注意力模型中的对齐问题，并证明了通过增加一个额外的对齐头可以提高 Transformer 模型的对齐抽取。通过字典引导翻译任务的模拟，我们使用所提出的方法，在与基准情况相比，使用字典时 BLEU 分数提高了 3.8％，而基准情况下提高了 2.4％的 BLEU 分数。我们还提出了对齐剪枝来加速解码，从而在保持翻译性能不变的情况下，将翻译加速了 1.8 倍。

Abstract

This work investigates the alignment problem in state-of-the-art multi-head attention models based on the transformer architecture. We demonstrate that alignment extraction in transformer models can be improved by augmenting an additional alignment head to the multi-head source-to-targ

alignment extraction multi-head attention transformer model neural machine translation dictionary-guided translation

发现论文，激发创造

给神经机器翻译模型添加可解释的注意力机制改善了单词对齐

提出一种基于 Transformer 架构的简单模型扩展，利用其隐藏表示，仅限于对编码器信息进行注意以预测下一个单词，进一步介绍了一种新的对齐推断过程，直接将目标词的注意力激活率优化为对齐结果，这种对齐方法在两个公开数据集上明显优于 naive 方法，并且与 Giza++ 相当。

Jan, 2019

使用 Transformer 模型联合学习对齐和翻译

本文介绍了一种用 Transformer 模型进行机器翻译和单词对齐的方法，实现了较高的翻译与对齐准确率，同时在多项测试中优于之前的 Transformer 模型单词对齐方法。

Sep, 2019

主题感知神经机器翻译引导对齐训练

本文提出了一种有效的方法来偏置序列到序列神经机器翻译模型（NMT）的注意机制，使其趋向于研究过的词对齐模型。我们展示了我们的新型引导对齐训练方法如何在真实生活的电商文本翻译中提高了翻译质量，克服了许多未知单词和大型类型 / 令牌比。我们还表明，与输入文本相关的元数据（例如主题或类别信息）作为网络解码器部分的附加信号可显着提高翻译质量。有了这两个新功能，NMT 系统在一个产品标题集上的 BLEU 分数从 18.6 提高到 21.3％。通过将通用领域 NMT 系统进行领域适应也可获得更大的机器翻译质量提升。这个开发的 NMT 系统在 IWSLT 语音翻译任务中也表现良好，其中四个变体系统的集合比基线的基于短语的系统的 BLEU 分数提高了 2.1％。

Jul, 2016

缓解神经机器翻译中注意力头不平等

本篇论文研究表明 Transformer 中的注意力头并不相等，为解决这个问题，提出了 HeadMask 方法，在多个语言对中实现了翻译改进。

Sep, 2020

神经机器翻译的监督注意力

本文提出利用训练句子对齐来提高神经机器翻译的关注或对齐准确性，通过将机器关注与 “真实” 对齐之间的距离计算，并在训练过程中最小化此代价，我们的实验证明，相对于大型词汇神经机器翻译系统，我们的模型显著提高了翻译和对齐质量，超越了最先进的传统基于语法的系统。

Jul, 2016

带有受监督注意力的神经机器翻译

本论文研究了注意力机制在神经机器翻译中生成对齐的问题，并从重新排序方面分析和解释了这个问题。提出了一种受传统对齐模型指导学习的监督注意力机制，实验表明，这种机制比标准注意力机制产生更好的对齐效果，并且在中英文翻译任务中均有显著提高。

Sep, 2016

神经机器翻译的覆盖率建模

本文提出基于 coverage 的 NMT 模型通过维护一个 coverage 向量来跟踪 Attention 历史信息，帮助调整未来 Attention，从而显著提高了传统 attention-based NMT 的翻译和对齐质量。

Jan, 2016

从神经机器翻译中准确导出词语对齐

该论文指出 Transformer 的注意力机制可以捕捉到准确的单词对齐，并提出了两种新的词语对齐感应方法 Shift-Att 和 Shift-AET，在三个公开数据集上的实验表明，两种方法都优于它们对应的神经基线，Shift-AET 比 GIZA ++ 高 1.4-4.8 AER 点。

Apr, 2020

通过操作多头注意力生成多样化翻译

本文研究 Transform 模型在机器翻译中的应用，探讨其编码器 - 解码器多头注意力机制中，不同注意力头与翻译候选词的对应关系，提出一种操控头以生成多样化翻译的方法，并利用这些多样化翻译进行后向翻译以改进数据增强技术，并且不会严重降低翻译质量。实验结果表明，与这些多样化翻译的后向翻译可以显著提高翻译任务的性能，与之相关的对话响应生成任务的实验也验证了多样化的效果。

Nov, 2019

Transformer NMT 中的注意力权重不能完全对齐序列中的单词，但在很大程度上解释了模型的预测

本文提出了关于 Transformer 网络在神经机器翻译（NMT）领域的广泛分析，重点关注编码器 - 解码器注意机制，证明了注意权重系统地通过依赖于源序列中的未知标记而产生对齐错误。我们提出了证据表明错误对齐对模型行为的影响，并证明了编码器 - 解码器注意机制作为 NMT 的可解释性方法。最后，基于我们的分析，我们提出了可以大大降低单词对齐错误率的方法，与从注意力权重中引导对齐的标准方法相比。

Sep, 2021