ICLRFeb, 2019

批归一化的平均场理论

TL;DR我们研究了全连接前馈神经网络的批标准化问题,并提出了一种均值场理论。研究表明,批标准化会导致梯度爆炸,而这种爆炸无法通过调节初始权重方差或调整非线性激活函数来消除。然而,我们可以通过将网络调整到线性区域来减少梯度爆炸,从而提高网络的可训练性。此外,我们还研究了批标准化网络的学习动态。