Jun, 2024
线性回归中的缩放定律:计算、参数和数据
Scaling Laws in Linear Regression: Compute, Parameters, and Data
TL;DR大规模深度学习模型的实证研究表明,随着模型大小和数据规模的增加,训练模型的测试误差呈多项式改进;然而,神经缩放定律的一般形式预测增加模型大小会单调改善性能,这与传统的认知不同,即测试误差包含逼近、偏差和方差误差,并且方差错误随模型大小增加而增加。本研究在无限维线性回归设置下研究了缩放规律的理论;假设最优参数符合高斯先验,数据协方差矩阵具有幂律谱指数为a>1,我们证明了测试误差的可还原部分为Θ(M^{-(a-1)} + N^{-(a-1)/a});方差错误随M的增加而增加,但由于随机梯度下降的隐式正则化作用,被其他误差所主导从而在界限中消失。我们的理论与实证神经缩放定律一致,并经过数值模拟验证。