Mar, 2020

PowerNorm: 在 Transformer 中重新考虑批量归一化

TL;DR本文研究了神经网络(NN)和自然语言处理 (NLP) 中的标准归一化方法 —— 层归一化 (LN) 和在计算机视觉中广泛应用的批归一化(BN)之间的区别,分析了使用 BN 进行 NLP 任务时性能下降的原因,提出了一种通过放宽 BN 中的零均值正则化,引入运行时二次平均值稳定批次间波动并在前向传递中引入运行时高斯噪声的新型 Lp 归一化方法 (PN),比 LN 和 BN 都表现更好。