ICLRSep, 2018

基于短语的注意力机制

TL;DR本文提出了新颖的基于词组注意 (phrase-based attention) 的方法,将 n 个词组建模为注意机制实体,从而在 Transformer 网络中引入这种方法,结果在 WMT'16 训练数据的英德翻译任务中,分别提高了 1.3 BLEU 和 0.5 BLEU。