BriefGPT.xyz
Dec, 2019
线性回归中更多的数据可能会产生负面效果:样本逐步双峰曲线
More Data Can Hurt for Linear Regression: Sample-wise Double Descent
HTML
PDF
Preetum Nakkiran
TL;DR
在高参数化线性回归领域中,出现了一个令人惊讶的现象,即当样本数少于特征维数时,测试误差会随着样本增加而增加,即更多的数据反而会伤害估计器。该现象是近期理论研究分析线性模型中“双下降”现象的一部分。在本文中,我们以线性回归为预测模型,通过对具有各向同性高斯协方差矩阵的数据集进行分析,对该现象进行了总结和阐述。
Abstract
In this expository note we describe a surprising phenomenon in overparameterized
linear regression
, where the dimension exceeds the number of samples: there is a regime where the test risk of the estimator found by
grad
→