关于层归一化的非线性性

ICMLJun, 2024

On the Nonlinearity of Layer Normalization

Yunhao Ni, Yuxin Guo, Junlong Jia, Lei Huang

TL;DR研究论文通过理论和实验分析，探讨了层归一化在深度学习中的非线性和表示能力，并展示了利用层归一化的神经网络结构的有效性以及扩大其非线性的方法。

Abstract

layer normalization (LN) is a ubiquitous technique in deep learning but our theoretical understanding to it remains elusive. This paper investigates a new theoretical direction for LN, regarding to its nonlinearity

layer normalization nonlinearity representation capacity ln-net vc dimension

发现论文，激发创造

规范化就足够了：理解极端标签偏移下的层归一化联邦学习

通过对层归一化与联邦学习中的标签转移问题的深入研究，我们揭示了层归一化与标签转移问题之间的深刻联系，并验证了特征归一化作为层归一化中的关键机制在改善联邦学习的收敛性方面的重要作用。

Aug, 2023

使用标准化层训练的 ReLU 神经网络的优化理论

本文研究了引入规范化层对神经网络的全局收敛速度和优化效果的影响，证明了在引入 Weight Normalization 后，具有 ReLU 激活函数的两层神经网络可以加速收敛。

Jun, 2020

加速和稳定 Transformer 的统一规范化

提出一种名为统一归一化（UN）的新型网络层归一化方法，通过采用适合的波动整理策略校准激活和梯度统计数据，以避免过多迭代波动和极端异常值的问题，并应用自适应离群值筛选策略以避免训练崩溃。通过在语言和视觉任务上的广泛实验，验证了 UN 作为 LN 的高效替代方法，可以加快推理速度约 31％，减少内存约 18％。

Aug, 2022

深度学习中标准化方法的新诠释

本文提出了一项引理来解释多种神经网络中的归一化方法，从而能够在统一的框架下解释归一化的概念。我们的结论是，这些归一化方法能够让权重的范数增大，可能会造成攻击性漏洞的风险，同时，证明这些归一化方法可以帮助稳定网络训练。

Jun, 2020

理解和改善层归一化

本研究主要探讨了 LayerNorm 技术的有效性以及如何优化其性能，提出了一种新的规范化方法 AdaNorm，其实验结果比传统 LayerNorm 方法更好。

Nov, 2019

层归一化的几何和动力学

一篇技术说明旨在提供对深度神经网络中常见的 LayerNorm 函数更深入的直观理解，通过开发新的数学表达和几何直觉，使其净效应更透明，强调当 LayerNorm 作用于 N 维向量空间时，所有 LayerNorm 的结果位于 (N-1) 维超平面与 N 维超椭球体内部的交集中，该交集是 (N-1) 维超椭球体的内部，而典型输入被映射到其表面附近。我们通过对一个简单构建的矩阵进行特征值分解来找到这个 (N-1) 维超椭球体的主轴方向和长度。

May, 2024

层归一化

本文提出一种基于层归一化的深度神经网络训练新方法，能够有效稳定循环神经网络中的隐藏状态动态，其训练时间较之前的技术有大幅度降低。

Jul, 2016

批量层归一化，一种用于 CNNs 和 RNN 的新归一化层

介绍了一种新的归一化层 Batch Layer Normalization（BLN），可以在深度神经网络中减少内部协变量偏移问题，通过适应性的权衡 mini-batch 和特征标准化，并且具有比批归一化和层归一化更快的收敛速度。

Sep, 2022

使用实例层规范化的 U-Net 训练

本文提出了一种基于 Sigmoid 函数和分组归一化的 Instance-Layer Normalization (ILN) 层，用于 DCNN 的浅层特征图融合。使用 U-Net 作为 DCNN 架构以右心室和左心室的图像分割为例，验证了 ILN 在各种常见规格网络上的有效性，优于传统的与流行的归一化方法。

Aug, 2019

PowerNorm: 在 Transformer 中重新考虑批量归一化

本文研究了神经网络（NN）和自然语言处理 (NLP) 中的标准归一化方法 —— 层归一化 (LN) 和在计算机视觉中广泛应用的批归一化（BN）之间的区别，分析了使用 BN 进行 NLP 任务时性能下降的原因，提出了一种通过放宽 BN 中的零均值正则化，引入运行时二次平均值稳定批次间波动并在前向传递中引入运行时高斯噪声的新型 Lp 归一化方法 (PN)，比 LN 和 BN 都表现更好。

Mar, 2020