ICMLFeb, 2017

破碎渐变问题:如果 ResNets 是答案,那问题是什么?

TL;DR本文提出了 “破碎梯度” 问题,指出标准前馈网络中梯度之间的相关性随着深度呈指数衰减,导致梯度类似于白噪声;相比之下,具有跳跃连接的体系结构更加抗干扰,梯度呈次线性降低。此外,本文还提出了一种新的 “线性外观”(LL) 初始化方法,可以避免破碎现象,并证明其可以使深度网络更好地进行训练。