Feb, 2024

神经缩放法则的动力学模型

TL;DR神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高,这一现象被称为神经缩放定律,而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的;研究表明,神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学,但在后期表现为 $ extit {width}^{-c}$ 的速度,其中 $c$ 取决于架构和任务的结构;此外,理论上显示了由于数据的重复重用,训练和测试损失之间的差距可以随时间逐渐增大。