Jun, 2019
教师 - 学生设置下的两层神经网络随机梯度下降动力学
Dynamics of stochastic gradient descent for two-layer neural networks in the teacher-student setup
Sebastian Goldt, Madhu S. Advani, Andrew M. Saxe, Florent Krzakala, Lenka Zdeborová
TL;DR在大规模数据训练下,研究了超参数化两层神经网络在教师 - 学生的设置下的动态和表现,证明了 SGD 的一组微分方程可以捕捉到动态,同时揭示了不同激活函数找到的解决方案的不同表现,并发现了对于神经网络的良好泛化,不仅取决于 SGD 的性质,还取决于算法,模型架构和数据集的相互作用。