ICMLFeb, 2017
破碎渐变问题:如果 ResNets 是答案,那问题是什么?
The Shattered Gradients Problem: If resnets are the answer, then what is the question?
David Balduzzi, Marcus Frean, Lennox Leary, JP Lewis, Kurt Wan-Duo Ma...
TL;DR本文提出了 “破碎梯度” 问题,指出标准前馈网络中梯度之间的相关性随着深度呈指数衰减,导致梯度类似于白噪声;相比之下,具有跳跃连接的体系结构更加抗干扰,梯度呈次线性降低。此外,本文还提出了一种新的 “线性外观”(LL) 初始化方法,可以避免破碎现象,并证明其可以使深度网络更好地进行训练。