Dec, 2018

残余网络的随机训练:微分方程视角

TL;DR本文研究了基于改进方程的方法,表明残差网络及其变体可以被视为弱逼近随机微分方程。从损失景观的角度提供了关于正则化效应的新视角,并为设计更可靠和高效的随机训练策略提供了启示。我们提出了一种利用伯努利丢弃来进行实验的新方法,从而验证了我们的理论发现。