Nov, 2019

基于字符的 Transformer 神经机器翻译

TL;DR本文研究了字符级别的翻译和基于 Transformer 架构的输入与输出之间的影响,并通过对 EN-DE 的实验发现字符级别 Transformer 模型比其 BPE 模型更具鲁棒性。为了在干净、领域特定的数据中获得可比的 BLEU 分数并缩小与基于 BPE 的模型之间的差距,我们采用已知的技术训练更深层的 Transformer 模型。