Oct, 2019

不含泪的 Transformer: 改进自注意力的规范化

TL;DR通过 PreNorm、ScaleNorm 和 FixNorm 三种方法的应用,能够加速模型训练,使其更加稳定,从而在五种低资源的翻译对中得到了 1.1 BLEU 的提升并在 IWSLT'15 上获得 32.8 BLEU 的表现。