Apr, 2023

无需重新搜索的研究:最大更新参数化在各个尺度上实现准确的损失预测

TL;DR本研究提出了一种新的解决大规模语言模型研究验证成本高的问题的范式,通过发现 Maximal Update parametrization(muP)可以使超参数的缩放定律精确拟合,并允许在训练开始之前使用损失预测直接比较不同模型。