BriefGPT.xyz
Ask
alpha
关键词
µ-parameterization
搜索结果 - 1
大规模 $μ$ 转让的探索
大型神经网络模型的初始化和学习速率通常基于启发式方法,本研究通过对普遍存在的 Transformer 架构进行实证研究,探究 µP(µ-Parameterization)是否在实践中能够提供最佳的学习速率,并发现在大多数重要情况下 µ-Tr
→
PDF
3 months ago
Prev
Next