Jun, 2019

教师 - 学生设置下的两层神经网络随机梯度下降动力学

TL;DR在大规模数据训练下,研究了超参数化两层神经网络在教师 - 学生的设置下的动态和表现,证明了 SGD 的一组微分方程可以捕捉到动态,同时揭示了不同激活函数找到的解决方案的不同表现,并发现了对于神经网络的良好泛化,不仅取决于 SGD 的性质,还取决于算法,模型架构和数据集的相互作用。