Dec, 2019

线性回归中更多的数据可能会产生负面效果:样本逐步双峰曲线

TL;DR在高参数化线性回归领域中,出现了一个令人惊讶的现象,即当样本数少于特征维数时,测试误差会随着样本增加而增加,即更多的数据反而会伤害估计器。该现象是近期理论研究分析线性模型中 “双下降” 现象的一部分。在本文中,我们以线性回归为预测模型,通过对具有各向同性高斯协方差矩阵的数据集进行分析,对该现象进行了总结和阐述。