ACLMay, 2023

层归一化对零样本神经机器翻译的影响探究

TL;DR本文探讨了层规范化 (LayerNorm) 对零 - shot 翻译 (ZST) 的影响。通过在 OPUS、IWSLT 和 Europarl 数据集上的 54 个 ZST 方向的实验,我们证明了在残差连接后 (PostNorm) 的原始 Transformer 设置通常比默认的层输入规范化 (PreNorm) 在 BLEU 值上提高了 12.3 点,同时研究了 PreNorm 和 PostNorm 之间的差异,强调了在 ZST 中需要对 LayerNorm 的设置进行仔细考虑。