ICLRDec, 2017

梯度爆炸问题探究 —— 定义、普遍性、影响、来源、权衡和解决方案

TL;DR该研究指出在大多数 MLP 体系结构中,梯度消失问题仍然存在,而 ResNets 拥有较低的梯度并且可以绕过梯度消失现象,使得更深层的神经网络可以有效地训练,这是因为引入跳过连接会简化网络数学模型,可能是其成功的主要原因。