ACLMay, 2021

文档级机器翻译的 G-Transformer

TL;DR通过引入归纳偏置(locality assumption)作为一种假设,从目标到源的注意力的假设空间减小,来解决翻译单元扩展至整个文档时出现的训练失败问题,我们提出了 G-Transformer。实验表明,G-Transformer 比 Transformer 更快、更稳定地收敛,在三个基准数据集上实现了新的最优 BLEU 分数。