BriefGPT.xyz
Ask
alpha
关键词
anisotropic weight fluctuations
搜索结果 - 1
(深层)线性神经网络中的权重波动与逆方差平坦关系的推导
我们研究了合成高斯数据中单层和双层线性神经网络在随机梯度下降(SGD)的持续(末期)训练阶段。我们发现,在过度采样不足的弱过采样范围内,单层网络的噪声协方差矩阵的谱明显偏离 Hessian,可归因于 SGD 动力学的详细平衡破坏。在这种情况
→
PDF
8 months ago
Prev
Next