理解和改善层归一化
一篇技术说明旨在提供对深度神经网络中常见的 LayerNorm 函数更深入的直观理解,通过开发新的数学表达和几何直觉,使其净效应更透明,强调当 LayerNorm 作用于 N 维向量空间时,所有 LayerNorm 的结果位于 (N-1) 维超平面与 N 维超椭球体内部的交集中,该交集是 (N-1) 维超椭球体的内部,而典型输入被映射到其表面附近。我们通过对一个简单构建的矩阵进行特征值分解来找到这个 (N-1) 维超椭球体的主轴方向和长度。
May, 2024
通过数学分析和实验证明,在深度网络中引入标准化层(例如批量标准化,层标准化)有利于优化并促进泛化,同时对于包含标准化的一类神经网络,伴随权值衰减的标准化可以鼓励梯度下降到达稳定边缘,并且对于这种情况,可以确定梯度下降的流动轨迹。
Jun, 2022
本文提出了一项引理来解释多种神经网络中的归一化方法,从而能够在统一的框架下解释归一化的概念。我们的结论是,这些归一化方法能够让权重的范数增大,可能会造成攻击性漏洞的风险,同时,证明这些归一化方法可以帮助稳定网络训练。
Jun, 2020
本文研究了引入规范化层对神经网络的全局收敛速度和优化效果的影响,证明了在引入 Weight Normalization 后,具有 ReLU 激活函数的两层神经网络可以加速收敛。
Jun, 2020
本篇论文详细研究了批量归一化在训练神经网络中的作用,以及其与其他优化方法的比较,主要目的是通过改进训练过程判断是否有可能在不使用批量归一化情况下有效地训练网络。
Aug, 2020
本文研究了对图神经网络进行归一化的有效方法,将 InstanceNorm 与 BatchNorm 和 LayerNorm 进行比较,证明了 InstanceNorm 对 GNNs 的预处理效果最好。同时,我们也发现 InstanceNorm 的偏移操作可能会导致 GNNs 的表现能力下降,因此引入了可学习的 GraphNorm 对表现力下降的问题进行纠正,实验证明使用 GraphNorm 推出的 GNN 准确率得到了显著提升。
Sep, 2020
本文探讨了批量归一化(BatchNorm)对深度神经网络(DNN)训练的影响及原因,发现 BatchNorm 的成功并不在于控制层输入分布的稳定性,而是在于它让优化的过程变得更加平滑,从而使梯度更加稳定和可预测,加快了训练速度。
May, 2018
本文探讨了神经网络优化中常见的批量标准化方法,并提出了四种改善方法,包括基于推理标准化统计的推理现有实例的方法、小批量大小下有效的 Ghost Batch Normalization 正则化方法、权重衰减正则化对 scaling 和 shifting 参数 gamma 和 beta 的影响、并结合批量标准化和分组标准化的方法解决小批量规模的问题。这些方法可以提高神经网络在六个数据集上的性能表现。
Jun, 2019