BriefGPT.xyz
Ask
alpha
关键词
maximal update parametrization
搜索结果 - 4
$\mu$LO: 计算高效的元泛化学习优化器
通过使用最近提出的最大更新参数化理论 (Maximal Update Parametrization),我们扩展了学习优化器的元训练问题,实现了从小型模型到大型模型的零 - shot 泛化 (optimizer hyperparameter
→
PDF
a month ago
特征学习的光谱条件
通过扩大神经网络的规模进行特征学习,我们展示了通过标度化权重矩阵和它们的更新的谱范数来实现特征学习,这是与根据 Frobenius 范数和条目大小进行启发式标度化方法相反的,同时我们的谱标度分析还导致了对最大更新参数化的基本推导,总之,我们
→
PDF
8 months ago
无需重新搜索的研究:最大更新参数化在各个尺度上实现准确的损失预测
本研究提出了一种新的解决大规模语言模型研究验证成本高的问题的范式,通过发现 Maximal Update parametrization(muP)可以使超参数的缩放定律精确拟合,并允许在训练开始之前使用损失预测直接比较不同模型。
PDF
a year ago
Tensor Programs V: 通过零样本超参数迁移调整大型神经网络
研究了利用最大更新参数化(muP)在模型大小变化时保持多种最优超参数稳定的 HP 调整方法 muTransfer,在 Transformer 和 ResNet 上进行了验证,并且可以实现零调整迁移,这可以将来自小模型的超参数零次传输到完整模
→
PDF
2 years ago
Prev
Next