均方根层标准化
本文提出了一种方法通过去除 Pre-LN Transformers 的冗余均值信息,将 LayerNorm 转化为 RMSNorm 以取得更高效率,进一步提出了一种基于无损压缩的 CRMSNorm Transformer, 实验证明,这种方法可将 Pre-LN Transformers 的训练和推断时间缩短高达 10%。
May, 2023
通过引入一种快速的迭代方法,可以最小化权重的 L2 范数,同时提高了测试准确率,从而为小批量数据提供了一种替代 CIFAR-10 和 ImageNet 的 ResNet-18 中的批量和分组规范化方法
Feb, 2019
本研究提出了一种新的对归一化方法和权值衰减的目的和功能的视角,并建议了几种常用 L2 批归一化的替代方案,包括 L1 和 L∞范数中的归一化,以提高计算和内存效率,并且在低精度实现中大幅提高了数值稳定性,并且还提出了一种改进重要性重归一化的方法,可以提高其在大规模任务上的性能。
Mar, 2018
本文研究了归一化二阶卷积特征的几种方式,其中以矩阵平方根归一化和元素平方根加 L2 归一化的方案为最佳,改进后在细粒度识别数据集上性能提高了 2-3%。研究还发现,在边界情况得到合理处理后,用于计算梯度的数值方法与网络的最终准确性关系较小。本文最终提出一种快速实现效果相当的固定迭代次数方法,可用于 GPU 上进行实现。
Jul, 2017
通过引入迭代矩阵平方根归一化方法,本文提出一种针对全局协方差池化网络的快速端到端训练方案,相比于依赖于 GPU 有限支持的 EIG 或 SVD 的方法更加高效,并且可以在更少的 epoch 内获得更好的性能。
Dec, 2017
本文研究了神经网络(NN)和自然语言处理 (NLP) 中的标准归一化方法 —— 层归一化 (LN) 和在计算机视觉中广泛应用的批归一化(BN)之间的区别,分析了使用 BN 进行 NLP 任务时性能下降的原因,提出了一种通过放宽 BN 中的零均值正则化,引入运行时二次平均值稳定批次间波动并在前向传递中引入运行时高斯噪声的新型 Lp 归一化方法 (PN),比 LN 和 BN 都表现更好。
Mar, 2020
利用矩阵流形的几何性质,我们提出了一种自动优化方法,对神经网络的归一化参数进行优化。通过层次化的权重归一化以限制利普希茨常数并增强梯度的可靠性,使训练后的网络适用于控制应用。通过初始化网络和根据初始化网络的 2-2 增益对数据进行归一化,我们的方法首先对网络进行初始化。然后,所提出的算法基于高维球面上的指数映射来进行更新。给定一个更新方向(如负内腔梯度),我们提出了两种不同的方式来确定下降的步长。第一种算法利用目标函数沿着组合球面流形上定义的更新曲线进行的自动微分。利用方向二阶导数信息,无需显式构造海森矩阵。第二种算法利用架构感知的主导次数极小化框架进行神经网络的优化。通过这些新进展,所提出的方法避免了手动调优和学习率的调度,从而为优化归一化神经网络提供了自动化的流程。
Dec, 2023