批归一化在自然语言处理中 Transformer 失败的原因

Oct, 2022

批归一化在自然语言处理中 Transformer 失败的原因

Understanding the Failure of Batch Normalization for Transformers in NLP

Jiaxi Wang, Ji Wu, Lei Huang

TL;DR通过量化训练与推理之间的不一致性，证明了 BN 在 NLP 中表现较差的主要原因，并提出了一种正则化方法 RBN，可以显著改善 BN 在 Transformer 模型上的性能。

Abstract

batch normalization (BN) is a core and prevalent technique in accelerating the training of deep neural networks and improving the generalization on Computer Vision (CV) tasks. However, it fails to defend its position in Natural Language Processing (NLP), which is dominated by

batch normalization layer normalization training inference discrepancy natural language processing transformer models

发现论文，激发创造

PowerNorm: 在 Transformer 中重新考虑批量归一化

本文研究了神经网络（NN）和自然语言处理 (NLP) 中的标准归一化方法 —— 层归一化 (LN) 和在计算机视觉中广泛应用的批归一化（BN）之间的区别，分析了使用 BN 进行 NLP 任务时性能下降的原因，提出了一种通过放宽 BN 中的零均值正则化，引入运行时二次平均值稳定批次间波动并在前向传递中引入运行时高斯噪声的新型 Lp 归一化方法 (PN)，比 LN 和 BN 都表现更好。

Mar, 2020

理解批标准化

本文旨在通过实证研究向更好地理解批归一化的原理和机制迈出一步，证明批归一化主要实现了更大学习率的训练，这是更快收敛和更好泛化的原因。

Jun, 2018

批量归一化解释

批量归一化是一种无监督的学习技术，它适应了深度神经网络的样条分区来匹配数据，缩小了训练样本和决策边界之间的边距，从而减少了过拟合，提高了泛化性能。

Sep, 2022

加速和稳定 Transformer 的统一规范化

提出一种名为统一归一化（UN）的新型网络层归一化方法，通过采用适合的波动整理策略校准激活和梯度统计数据，以避免过多迭代波动和极端异常值的问题，并应用自适应离群值筛选策略以避免训练崩溃。通过在语言和视觉任务上的广泛实验，验证了 UN 作为 LN 的高效替代方法，可以加快推理速度约 31％，减少内存约 18％。

Aug, 2022

批量归一化中正则化的理解

通过对神经网络的基本结构进行分析，我们发现批量标准化通过人口标准化和 gamma 衰减作为显式正则化来实现隐式正则化，可以提高训练收敛性和泛化性，同时提供了学习动力学和正则化的学习方法，这一理论与实验证明了在卷积神经网络中批量标准化和上述分析具有相同的正则化特性。

Sep, 2018

在联邦深度学习中优化批标准化

研究表明，在分布式学习中，Batch Normalization 和 Group Normalization 并没有明显差异，而 Batch Normalization 可以用于更广泛的分布式学习设置中。

Mar, 2023

在 BN 反向传播中稳定批统计量

本文提出一种新的归一化方法，即移动平均批量归一化（MABN），可以在小批量情况下完全恢复基本 BN 的性能，并且在推理过程中不需要引入任何额外的非线性操作，此方法通过理论分析和实验演示了其有效性。

Jan, 2020

组归一化

本文提出了组归一化（GN）作为批量归一化（BN）的一种简单替代方案，GN 可解决 BN 在小批量大小下估计错误的问题，稳定性高且可应用于多种计算机视觉任务，如目标检测和图像分割。

Mar, 2018

批量层归一化，一种用于 CNNs 和 RNN 的新归一化层

介绍了一种新的归一化层 Batch Layer Normalization（BLN），可以在深度神经网络中减少内部协变量偏移问题，通过适应性的权衡 mini-batch 和特征标准化，并且具有比批归一化和层归一化更快的收敛速度。

Sep, 2022

BNN - BN = ?：无需批量归一化训练二元神经网络

通过采用自适应梯度剪切、比例重量标准化和专门的瓶颈块等技术，本研究将 BN-Free 训练的框架扩展到二进制神经网络训练，并首次证明可以完全从 BNN 的训练和推断中去除 BN 层，而不会丧失性能。

Apr, 2021