EMNLPSep, 2020

长短时 Masking Transformer: 一种简单而有效的文档级神经机器翻译基线模型

TL;DR本研究探索了基于上下文感知框架的神经机器翻译系统,研究发现标准 Transformer 自回归属性可以同时带来一致性和误差积累的优势和劣势,因此提出了一种简单的基于长短时记忆的自注意力机制用于捕捉长距离依赖并减少误差传播,在两个公开数据集上验证可以获得较高 BLEU 得分并捕捉语篇现象。