Jul, 2024
随机梯度下降或架构的偏差:解开神经网络过参数化的影响
Bias of Stochastic Gradient Descent or the Architecture: Disentangling
the Effects of Overparameterization of Neural Networks
TL;DR神经网络过拟合问题涉及超参数,随机梯度下降以及网络架构等因素,本文通过研究随机和经优化的网络来解析由优化和架构选择引起的泛化问题,实验证明对于增加的宽度,超参数化对泛化有益,并且这一益处源于随机梯度下降的偏差,而不是网络架构导致的;相反,对于增加的深度,超参数化对泛化不利,但随机和经优化的网络表现相似,因此这可以归因于架构偏差。