均方根层标准化

Oct, 2019

Root Mean Square Layer Normalization

Biao Zhang, Rico Sennrich

TL;DR该论文介绍了 RMSNorm 和 pRMSNorm，这是相对于对传统的 LayerNorm 进行改进，可使神经网络模型更具有稳定性和更快的收敛能力，同时保持了输入重新缩放的不变性，通过实验证明，RMSNorm 可以在不降低性能的情况下显著减少计算成本。

Abstract

Layer normalization (layernorm) has been successfully applied to various deep neural networks to help stabilize training and boost model convergence because of its capability in handling re-centering and re-scali

layernorm rmsnorm neural networks regularization computational efficiency

发现论文，激发创造

Pre-RMSNorm 与 Pre-CRMSNorm 变压器：等效且高效的 Pre-LN 变压器

本文提出了一种方法通过去除 Pre-LN Transformers 的冗余均值信息，将 LayerNorm 转化为 RMSNorm 以取得更高效率，进一步提出了一种基于无损压缩的 CRMSNorm Transformer，实验证明，这种方法可将 Pre-LN Transformers 的训练和推断时间缩短高达 10%。

May, 2023

理解和改善层归一化

本研究主要探讨了 LayerNorm 技术的有效性以及如何优化其性能，提出了一种新的规范化方法 AdaNorm，其实验结果比传统 LayerNorm 方法更好。

Nov, 2019

层归一化

本文提出一种基于层归一化的深度神经网络训练新方法，能够有效稳定循环神经网络中的隐藏状态动态，其训练时间较之前的技术有大幅度降低。

Jul, 2016

可扩展的模块化规范优化

在本文中，我们通过定义模块化范数来显著推广了神经网络的权重归一化方法，该范数与网络架构本身一起递归地定义，并展示了它在性能提升和理论分析方面的应用。

May, 2024

神经网络的等效标准化

通过引入一种快速的迭代方法，可以最小化权重的 L2 范数，同时提高了测试准确率，从而为小批量数据提供了一种替代 CIFAR-10 和 ImageNet 的 ResNet-18 中的批量和分组规范化方法

Feb, 2019

规范化重要性：深度神经网络中高效准确的规范化方法

本研究提出了一种新的对归一化方法和权值衰减的目的和功能的视角，并建议了几种常用 L2 批归一化的替代方案，包括 L1 和 L∞范数中的归一化，以提高计算和内存效率，并且在低精度实现中大幅提高了数值稳定性，并且还提出了一种改进重要性重归一化的方法，可以提高其在大规模任务上的性能。

Mar, 2018

使用 CNN 的改进双线性池化

本文研究了归一化二阶卷积特征的几种方式，其中以矩阵平方根归一化和元素平方根加 L2 归一化的方案为最佳，改进后在细粒度识别数据集上性能提高了 2-3%。研究还发现，在边界情况得到合理处理后，用于计算梯度的数值方法与网络的最终准确性关系较小。本文最终提出一种快速实现效果相当的固定迭代次数方法，可用于 GPU 上进行实现。

Jul, 2017

通过迭代矩阵平方根归一化实现全局协方差池化网络更快的训练

通过引入迭代矩阵平方根归一化方法，本文提出一种针对全局协方差池化网络的快速端到端训练方案，相比于依赖于 GPU 有限支持的 EIG 或 SVD 的方法更加高效，并且可以在更少的 epoch 内获得更好的性能。

Dec, 2017

PowerNorm: 在 Transformer 中重新考虑批量归一化

本文研究了神经网络（NN）和自然语言处理 (NLP) 中的标准归一化方法 —— 层归一化 (LN) 和在计算机视觉中广泛应用的批归一化（BN）之间的区别，分析了使用 BN 进行 NLP 任务时性能下降的原因，提出了一种通过放宽 BN 中的零均值正则化，引入运行时二次平均值稳定批次间波动并在前向传递中引入运行时高斯噪声的新型 Lp 归一化方法 (PN)，比 LN 和 BN 都表现更好。

Mar, 2020

标准化神经网络的自动优化

利用矩阵流形的几何性质，我们提出了一种自动优化方法，对神经网络的归一化参数进行优化。通过层次化的权重归一化以限制利普希茨常数并增强梯度的可靠性，使训练后的网络适用于控制应用。通过初始化网络和根据初始化网络的 2-2 增益对数据进行归一化，我们的方法首先对网络进行初始化。然后，所提出的算法基于高维球面上的指数映射来进行更新。给定一个更新方向（如负内腔梯度），我们提出了两种不同的方式来确定下降的步长。第一种算法利用目标函数沿着组合球面流形上定义的更新曲线进行的自动微分。利用方向二阶导数信息，无需显式构造海森矩阵。第二种算法利用架构感知的主导次数极小化框架进行神经网络的优化。通过这些新进展，所提出的方法避免了手动调优和学习率的调度，从而为优化归一化神经网络提供了自动化的流程。

Dec, 2023