Oct, 2018

注意力机制分析:基于神经机器翻译的词义消歧案例

TL;DR本文研究了神经机器翻译中编码器 - 解码器注意机制的特点,发现当翻译含义模糊的词汇时,注意机制更关注上下文标记。但与其他名词相比,注意机制更容易将更多注意力分配给模糊的名词本身而不是上下文标记,因此得出结论:注意机制不是神经机器翻译模型用于词义消歧所使用的主要机制之一。实验结果表明,NMT 模型在编码器隐藏状态中学习编码所需的上下文信息,而用于 Transformer 模型的注意机制表现为前几层逐渐了解源和目标标记,而最后几层学习从相关但不对齐的上下文标记中提取特征信息。