该论文讨论了深度神经网络训练中的内部协变量漂移问题,并通过在模型架构内加入标准化方法及在每个训练mini-batch的操作中进行标准化,解决了此问题,在Image Classification上取得了优秀的表现。
Feb, 2015
介绍了一种用于解决深度神经网络训练中的内部协变量漂移问题的非自适应规范化技术——Normalization Propagation,其利用一种数据独立的参数估计,通过预先规范化激活函数前的数据分布特征,实现了批标准化无法实现的单个Batch的训练,进一步减少了运算复杂性。
Mar, 2016
本文提出一种基于层归一化的深度神经网络训练新方法,能够有效稳定循环神经网络中的隐藏状态动态,其训练时间较之前的技术有大幅度降低。
Jul, 2016
我们通过对多个机器学习实例进行研究,证明了Batch Normalization在优化任务中的加速效果源于其将参数长度和方向分开进行优化,针对这些机器学习问题,Batch Normalization可以是一种收敛算法。
May, 2018
本文旨在通过实证研究向更好地理解批归一化的原理和机制迈出一步,证明批归一化主要实现了更大学习率的训练,这是更快收敛和更好泛化的原因。
Jun, 2018
提出了一种使用广义偏差测量的 Batch Normalization(BN)变换,与传统的 BN 相比,它通过使用风险理论和量化风险管理的最新概念,加速神经网络训练的收敛速度,在结合 ReLU 非线性时,可以自然选择偏差测量和统计,实验证明在保持错误率方面与传统 BN 相比有所提高,总体而言,为设计选择提供了一个更灵活的 BN 变换。
Dec, 2018
通过初始化时将剩余分支与跳过连接相比,批归一化可以缩小深度神经网络的剩余分支,从而通过将归一化因子放在网络深度的平方根上,确保在训练早期,深度网络中的标准化剩余块计算的函数接近于恒等函数,这是批归一化可以显着提高残差网络最大可训练深度的关键原因之一,并且已经关键地促成了深度残差网络在广泛的基准测试上的实证成功。同时,我们还提出了一种不需要归一化即可训练深度残差网络的简单初始化方案,并且对残差网络进行了详细的实证研究,阐明了虽然批归一化网络可以使用更高的学习率进行训练,但这种影响只有在特定计算范围内才是有利的,并且在批大小较小时几乎没有任何好处。
Feb, 2020
本篇论文详细研究了批量归一化在训练神经网络中的作用,以及其与其他优化方法的比较,主要目的是通过改进训练过程判断是否有可能在不使用批量归一化情况下有效地训练网络。
Aug, 2020
本文研究了深度规范化ReLU网络的早期训练阶段,并通过研究有效学习率(LR)来解释梯度流的影响,发现使用大LR类似于对非线性ODE应用显式求解器,在第一步后导致底层出现过振荡和梯度消失,因此在深度,LR和动量(可选)上需要进行精细调整,以保持总体平衡。
Jun, 2023
在这项研究中,我们设计了一种带有线性激活函数和批归一化的多层感知机模型,通过 Weingarten 微积分方法从理论上证明了其正向信号传播特性的精确表征,并证明了在线性独立的输入样本情况下渐近地保持梯度有界的特性。同时,我们还提出了一种激活函数塑形方案,能够在某些非线性激活函数下实现类似的特性。
Oct, 2023