Oct, 2022

批归一化在自然语言处理中 Transformer 失败的原因

TL;DR通过量化训练与推理之间的不一致性,证明了 BN 在 NLP 中表现较差的主要原因,并提出了一种正则化方法 RBN,可以显著改善 BN 在 Transformer 模型上的性能。