ICLRMar, 2020

关于训练深层线性 ResNets 的全局收敛性

TL;DR本研究讨论使用梯度下降和随机梯度下降算法进行训练具有 $L$ 层隐藏层的线性残差神经网络(ResNets)所需的网络宽度和线性变换;并且证明了在特定的线性变换和零初始化条件下,GD 和 SGD 算法能够收敛到最小训练误差的全局最小值。