Oct, 2018

关于训练循环神经网络的收敛速率

TL;DR本文研究了如何在训练多层神经网络时,通过采用类局部搜索方法(如随机梯度下降)避免陷入不良局部最小值,在给定非凸非光滑结构的情况下,它们如何适应随机标签;研究了在神经网络中如何使用 ReLU 激活函数避免指数梯度爆炸或消失;通过构建扰动理论,该理论可用于分析 ReLU 激活的多层网络的一阶数学逼近。