May, 2024

4+3 计算优化神经缩放定律的阶段

TL;DR我们考虑了 Maloney、Roberts 和 Sully 提出的三参数可解神经缩放模型。该模型包括数据复杂性、目标复杂性和模型参数数目三个参数。我们使用这个神经缩放模型来推导关于计算受限、无限数据缩放规律的新预测。我们对神经缩放模型进行一次随机梯度下降训练,并推导出适用于所有迭代次数的损失曲线表示,随着模型参数数目的增加,该表示在准确性上有所提升。我们然后分析计算最优的模型参数数目,并在数据复杂性 / 目标复杂性相位平面上确定了 4 个相位(+3 个子相位)。这些相位的相界由模型容量、优化器噪声和特征的嵌入的相对重要性决定。此外,我们通过数学证明和大量数值证据,求得了所有这些相位的缩放规律指数,尤其是最优模型参数数目作为浮点操作预算的函数。