关键词compute-optimal scaling law
搜索结果 - 2
- 安哥拉兔规模化实验
Hoffmann et al.(2022)提出了三种估计计算最优缩放定律的方法,我们试图复制他们的第三个估计过程,其中涉及将参数损失函数拟合到从图表中重建的数据。我们发现所报道的估计与他们的前两种估计方法不一致,无法对提取的数据进行拟合,并 - 神经缩放法则的动力学模型
神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高,这一现象被称为神经缩放定律,而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的;研究表明,神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到