Jun, 2019
教师-学生设置下的两层神经网络随机梯度下降动力学
Dynamics of stochastic gradient descent for two-layer neural networks in
the teacher-student setup
TL;DR在大规模数据训练下,研究了超参数化两层神经网络在教师-学生的设置下的动态和表现,证明了SGD的一组微分方程可以捕捉到动态,同时揭示了不同激活函数找到的解决方案的不同表现,并发现了对于神经网络的良好泛化,不仅取决于SGD的性质,还取决于算法,模型架构和数据集的相互作用。