BriefGPT.xyz
Ask
alpha
关键词
over-parameterised
搜索结果 - 1
教师 - 学生设置下的两层神经网络随机梯度下降动力学
在大规模数据训练下,研究了超参数化两层神经网络在教师 - 学生的设置下的动态和表现,证明了 SGD 的一组微分方程可以捕捉到动态,同时揭示了不同激活函数找到的解决方案的不同表现,并发现了对于神经网络的良好泛化,不仅取决于 SGD 的性质,还
→
PDF
5 years ago
Prev
Next