BriefGPT.xyz
Ask
alpha
关键词
sgd dynamics
搜索结果 - 2
基于时代的随机梯度下降中的相关噪声:对权重方差的影响
本文研究了离散时间下具有动量的 SGD 的时域白噪声的自相关,并研究了 epoch-based 噪声相关性对于 SGD 的影响,结果表明对于大于超参数相关值的曲率方向,可以恢复无关噪声的结果,但对于相对平坦的方向,权重方差显著降低。
PDF
a year ago
ICML
Tensor Programs IIb: 神经切向核训练动态的架构通用性
通过 Tensor Programs 技术在 Tensor Program 中分析的 SGD 动态,我们证明了使用 NTK 参数化的相同神经网络在训练期间遵循功能空间中的内核梯度下降动态,其中内核是无穷宽度 NTK,从而完整证明了 NTK
→
PDF
3 years ago
Prev
Next