Feb, 2017
破碎渐变问题:如果 ResNets 是答案,那问题是什么?
The Shattered Gradients Problem: If resnets are the answer, then what is
the question?
TL;DR本文提出了“破碎梯度”问题,指出标准前馈网络中梯度之间的相关性随着深度呈指数衰减,导致梯度类似于白噪声;相比之下,具有跳跃连接的体系结构更加抗干扰,梯度呈次线性降低。此外,本文还提出了一种新的“线性外观”(LL)初始化方法,可以避免破碎现象,并证明其可以使深度网络更好地进行训练。