BriefGPT.xyz
大模型
Ask
alpha
关键词
width scaling
搜索结果 - 1
浅层神经网络的次二次超参数化
本文采用 Polyak-Lojasiewicz 条件和随机矩阵理论,提供了一个分析框架,允许我们在基本浅层神经网络中同时训练所有层并达到网络宽度的理想亚二次标度。
PDF
3 years ago
Prev
Next