Aug, 2019

梯度下降法在实用规模的可推广深度神经网络中寻找全局最小值

TL;DR我们在本文中理论上证明了,在实践中经常遇到的大小的非线性深度神经网络的所有层的非凸优化中,梯度下降法可以找到全局最小值。我们的理论仅需要实际过度参数化的程度,而不需要以前的理论。此外,我们证明了网络的大小呈线性增长是最优的速率,除非是对数因子。此外,训练保证的深度神经网络显示出在自然数据集中很好地泛化到未见过的测试样本,但不包括随机数据集。