批归一化在自然语言处理中 Transformer 失败的原因
本文研究了神经网络(NN)和自然语言处理 (NLP) 中的标准归一化方法 —— 层归一化 (LN) 和在计算机视觉中广泛应用的批归一化(BN)之间的区别,分析了使用 BN 进行 NLP 任务时性能下降的原因,提出了一种通过放宽 BN 中的零均值正则化,引入运行时二次平均值稳定批次间波动并在前向传递中引入运行时高斯噪声的新型 Lp 归一化方法 (PN),比 LN 和 BN 都表现更好。
Mar, 2020
提出一种名为统一归一化(UN)的新型网络层归一化方法,通过采用适合的波动整理策略校准激活和梯度统计数据,以避免过多迭代波动和极端异常值的问题,并应用自适应离群值筛选策略以避免训练崩溃。通过在语言和视觉任务上的广泛实验,验证了 UN 作为 LN 的高效替代方法,可以加快推理速度约 31%,减少内存约 18%。
Aug, 2022
通过对神经网络的基本结构进行分析,我们发现批量标准化通过人口标准化和 gamma 衰减作为显式正则化来实现隐式正则化,可以提高训练收敛性和泛化性,同时提供了学习动力学和正则化的学习方法,这一理论与实验证明了在卷积神经网络中批量标准化和上述分析具有相同的正则化特性。
Sep, 2018
研究表明,在分布式学习中,Batch Normalization 和 Group Normalization 并没有明显差异,而 Batch Normalization 可以用于更广泛的分布式学习设置中。
Mar, 2023
本文提出一种新的归一化方法,即移动平均批量归一化(MABN),可以在小批量情况下完全恢复基本 BN 的性能,并且在推理过程中不需要引入任何额外的非线性操作,此方法通过理论分析和实验演示了其有效性。
Jan, 2020
本文提出了组归一化(GN)作为批量归一化(BN)的一种简单替代方案,GN 可解决 BN 在小批量大小下估计错误的问题,稳定性高且可应用于多种计算机视觉任务,如目标检测和图像分割。
Mar, 2018
介绍了一种新的归一化层 Batch Layer Normalization(BLN),可以在深度神经网络中减少内部协变量偏移问题,通过适应性的权衡 mini-batch 和特征标准化,并且具有比批归一化和层归一化更快的收敛速度。
Sep, 2022
通过采用自适应梯度剪切、比例重量标准化和专门的瓶颈块等技术,本研究将 BN-Free 训练的框架扩展到二进制神经网络训练,并首次证明可以完全从 BNN 的训练和推断中去除 BN 层,而不会丧失性能。
Apr, 2021