May, 2023

逃离平庸:两层网络如何使用 SGD 学习困难的单指标模型

TL;DR该研究探讨了在初始状态下存在许多平坦方向时,双层神经网络在随机梯度下降下学习单目标函数的样本复杂性,发现过度参数化只能增强收敛,而不能提高在这个问题类中的常数因子,这些发现是基于将随机梯度下降动态降维到更低维度的随机过程。