BriefGPT.xyz
Ask
alpha
关键词
mean-field weight initialization
搜索结果 - 1
ReLU MLP 中 $μ$P 学习率的深度依赖性
本研究考虑了具有均场权重初始化的宽度为 $n$ 且深度为 $L$ 的随机全连接 ReLU 神经网络,在此基础上研究了随着 $n$ 和 $L$ 的变化,最大更新学习率的依赖性以及其关于 $L$ 的尺度变化。结果表明,除了第一层和最后一层的权重
→
PDF
a year ago
Prev
Next