Jun, 2023

通过普通梯度下降超越 NTK: 关于多项式宽度、样本和时间的神经网络的平均场分析

TL;DR本文研究了非凸优化的双层神经网络,并探讨了梯度下降和核方法之间的样本复杂性差异问题。结果显示,使用不作任何修改的梯度下降算法可以在多项式次迭代后收敛到一非微不足道的错误,而核方法则不具备类似的性质。