May, 2019

网络宽度对随机梯度下降和泛化效果的影响:实证研究

TL;DR通过超参寻优与一系列不同的神经网络模型,我们探究了过度参数化情况下随机梯度下降最终调整到的参数状态,并发现优化算法的最优超参数取决于一项被规范化的噪声参数,其与网络宽度等因素有关,这对各种类型的神经网络均成立,对于 ResNets 这样的网络同样存在相似的趋势。