神经网络中的数据依赖路径归一化
本文重新审视了使用SGD来训练深度神经网络的选择,通过重新考虑优化权重时所适当的几何方式,提出了一种几何不变,不受权重重放缩影响的Path-SGD方法,并结合与最大范数正则化相关的基于路径的正则化器,使用这种近似的最陡梯度下降方法,以改进SGD和AdaGrad的效果。
Jun, 2015
介绍了一种用于解决深度神经网络训练中的内部协变量漂移问题的非自适应规范化技术——Normalization Propagation,其利用一种数据独立的参数估计,通过预先规范化激活函数前的数据分布特征,实现了批标准化无法实现的单个Batch的训练,进一步减少了运算复杂性。
Mar, 2016
研究了循环神经网络参数空间的几何形状,并开发了一种适应于该几何形状的路径-SGD优化方法,它可以学习具有ReLU激活的普通RNN。在一些需要捕捉长期依赖结构的数据集上,我们证明path-SGD可以显著提高ReLU RNN的可训练性,与使用SGD训练的RNN相比,即使使用各种最近推荐的初始化方案。
May, 2016
我们通过对多个机器学习实例进行研究,证明了Batch Normalization在优化任务中的加速效果源于其将参数长度和方向分开进行优化,针对这些机器学习问题,Batch Normalization可以是一种收敛算法。
May, 2018
我们研究了全连接前馈神经网络的批标准化问题,并提出了一种均值场理论。研究表明,批标准化会导致梯度爆炸,而这种爆炸无法通过调节初始权重方差或调整非线性激活函数来消除。然而,我们可以通过将网络调整到线性区域来减少梯度爆炸,从而提高网络的可训练性。此外,我们还研究了批标准化网络的学习动态。
Feb, 2019
通过量化 Fisher 信息矩阵确定的参数空间的几何,我们揭示了在深度神经网络中,批标准化作为最后一层标准化方法,对减少 Fisher 信息矩阵导致的病态锐度具有明显的贡献。
Jun, 2019
本篇论文详细研究了批量归一化在训练神经网络中的作用,以及其与其他优化方法的比较,主要目的是通过改进训练过程判断是否有可能在不使用批量归一化情况下有效地训练网络。
Aug, 2020
通过数学分析和实验证明,在深度网络中引入标准化层(例如批量标准化,层标准化)有利于优化并促进泛化,同时对于包含标准化的一类神经网络,伴随权值衰减的标准化可以鼓励梯度下降到达稳定边缘,并且对于这种情况,可以确定梯度下降的流动轨迹。
Jun, 2022
本文介绍了一种新的在频域归一化特征图的有效方法 - 频谱批量归一化(SBN),通过实验证明该方法可以避免特征图在初始化时和整个训练过程中的爆炸问题,使得深度神经网络的表现得到了显著提高。
Jun, 2023
提出了一种名为PSiLON Net的MLP架构,利用$L_1$权重归一化来处理每个权重向量,并在层间共享长度参数。通过简化1-path-norm并提供对高效学习和近稀疏参数的归纳偏差,设计了PSiLON Net。同时,提出了一种修剪方法来在最后阶段实现精确稀疏性。使用改进的1-path-norm作为正则化器,针对小数据环境下过参数化的PSiLON Nets和PSiLON ResNets进行实验,展示了可靠的优化和强大的性能。
Apr, 2024