ACLApr, 2020

基于自注意力机制的字符级翻译

TL;DR本文研究了自注意力模型在字符级神经机器翻译中的适用性,并测试了标准 Transformer 模型以及一种新颖的变体。我们在 WMT 和 UN 数据集上进行了广泛实验,使用最多三种输入语言(法语,西班牙语和中文)进行双语和多语翻译。我们的变体在字符级别上始终优于标准 Transformer,并收敛更快,并学习更稳健的字符级别对齐。