Aug, 2023

随机梯度下降法的平衡定律和稳定分布

TL;DR随机梯度下降(SGD)算法是用于训练神经网络的算法。在这项工作中,我们证明了 SGD 的小批量噪声在有缩放对称性的损失函数中使解决方案朝着均衡解决方案正则化。我们应用这一结果来推导具有任意深度和宽度的对角线线性网络的随机梯度流的稳态分布,该稳态分布展示了相变、破坏性遍历和涨落反转等复杂的非线性现象,这些现象只存在于深度网络中,暗示着深度模型与浅模型之间的根本差异。