注意力机制分析：基于神经机器翻译的词义消歧案例

Oct, 2018

注意力机制分析：基于神经机器翻译的词义消歧案例

An Analysis of Attention Mechanisms: The Case of Word Sense Disambiguation in Neural Machine Translation

Gongbo Tang, Rico Sennrich, Joakim Nivre

TL;DR本文研究了神经机器翻译中编码器 - 解码器注意机制的特点，发现当翻译含义模糊的词汇时，注意机制更关注上下文标记。但与其他名词相比，注意机制更容易将更多注意力分配给模糊的名词本身而不是上下文标记，因此得出结论：注意机制不是神经机器翻译模型用于词义消歧所使用的主要机制之一。实验结果表明，NMT 模型在编码器隐藏状态中学习编码所需的上下文信息，而用于 Transformer 模型的注意机制表现为前几层逐渐了解源和目标标记，而最后几层学习从相关但不对齐的上下文标记中提取特征信息。

Abstract

Recent work has shown that the encoder-decoder attention mechanisms in neural machine translation (NMT) are different from the word alignment in statistical machine translation. In this paper, we focus on analyzing encoder-decoder attention mechanisms, in the case of →

neural machine translation encoder-decoder attention mechanisms word sense disambiguation contextual information transformer models

发现论文，激发创造

编码器帮助神经机器翻译消除词义歧义

本文探讨了 NMT 编码器和解码器通过评估隐藏状态和研究自我关注的分布来消歧义词义的能力。通过训练分类器并研究注意权重和注重熵，发现编码器的隐藏状态显著优于单词嵌入，并且自我关注能够检测到模糊不清的名词并将更多注意力分配给上下文。

Aug, 2019

基于多注意力机制的新型神经序列模型用于词义消歧

通过引入注意力机制，本文提出一种新的词义消歧方法，将多种语言特征的多重注意力权重结合在一起，构建了一个更加灵活的编码器 - 解码器模型，从而在实现高准确率的同时，缩小了模型与人类专家之间的差距。

Sep, 2018

Transformer NMT 中的注意力权重不能完全对齐序列中的单词，但在很大程度上解释了模型的预测

本文提出了关于 Transformer 网络在神经机器翻译（NMT）领域的广泛分析，重点关注编码器 - 解码器注意机制，证明了注意权重系统地通过依赖于源序列中的未知标记而产生对齐错误。我们提出了证据表明错误对齐对模型行为的影响，并证明了编码器 - 解码器注意机制作为 NMT 的可解释性方法。最后，基于我们的分析，我们提出了可以大大降低单词对齐错误率的方法，与从注意力权重中引导对齐的标准方法相比。

Sep, 2021

神经机器翻译的语法导向注意力

本文提出了一种在一个新的句法距离约束下扩展局部注意力的神经机器翻译模型，同时进一步提出了一个双重上下文神经机器翻译体系结构，以提高翻译性能。实验证明，该方法从源表示中实现了显著和重大的改进。

Nov, 2017

多模态注意力神经机器翻译

本文将多模态注意力机制应用于图像字幕生成领域，通过在自然语言描述和图像上同时聚焦，实现了一种基于图像字幕的另一种语言描述生成方法，并在 Multi30k 数据集上取得了更好的效果。

Sep, 2016

带有受监督注意力的神经机器翻译

本论文研究了注意力机制在神经机器翻译中生成对齐的问题，并从重新排序方面分析和解释了这个问题。提出了一种受传统对齐模型指导学习的监督注意力机制，实验表明，这种机制比标准注意力机制产生更好的对齐效果，并且在中英文翻译任务中均有显著提高。

Sep, 2016

基于注意力机制的神经机器翻译有效方法

本文研究了两种简单而有效的注意力机制 —— 全局式和局部式，证明了这两种方法在英德翻译任务中的有效性，并使用不同的注意力架构建立了一个新的 WMT'15 英德翻译任务最佳结果的集成模型，其 BLEU 分数为 25.9 分，比现有的最佳基于 NMT 和 n-gram reranker 的系统提高 1.0 分。

Aug, 2015

上下文感知的选择性关注神经机器翻译

提出了基于上下文感知 NMT 的层次化注意力机制来处理整个文档的翻译，并使用稀疏注意力机制在文档上选择性地关注相关句子和关键词，将这些注意力模块产生的文档级上下文表示集成到 Transformer 模型的编码器或解码器中，通过在英德数据集上的实验进一步验证了该方法的有效性。

Mar, 2019

情境化的词义感知：从注意力到组合性

使用语义组合性建模的透明、可解释和语言学动机策略，模拟词的上下文意义编码，并且与复杂神经结构下的黑盒模型相比，显示其与语言学动机模型在给定语义任务中的竞争力。

Dec, 2023

神经机器翻译中的注意力关注什么？

本研究提供详细分析和比较注意力和传统对齐，在一些情况下表明注意力不同于对齐且能捕捉除对齐以外的有用信息。

Oct, 2017