Feb, 2020

批量归一化使深度网络中残差块偏向于恒等函数

TL;DR通过初始化时将剩余分支与跳过连接相比,批归一化可以缩小深度神经网络的剩余分支,从而通过将归一化因子放在网络深度的平方根上,确保在训练早期,深度网络中的标准化剩余块计算的函数接近于恒等函数,这是批归一化可以显着提高残差网络最大可训练深度的关键原因之一,并且已经关键地促成了深度残差网络在广泛的基准测试上的实证成功。同时,我们还提出了一种不需要归一化即可训练深度残差网络的简单初始化方案,并且对残差网络进行了详细的实证研究,阐明了虽然批归一化网络可以使用更高的学习率进行训练,但这种影响只有在特定计算范围内才是有利的,并且在批大小较小时几乎没有任何好处。