愚蠢的群体支持良性过度拟合

Oct, 2021

Foolish Crowds Support Benign Overfitting

PDF

Niladri S. Chatterji, Philip M. Long

TL;DR研究了稀疏插值程序在高参数化区域中对于高斯数据的线性回归问题的超额风险的下界，并将该结果应用于芯片追踪问题，从而揭示出一种类似于 “群众智慧” 的效应，即通过在多个方向上分散 “噪声” 来减少风险。

Abstract

We prove a lower bound on the excess risk of sparse interpolating procedures for linear regression with →

excess risk sparse interpolating procedures linear regression gaussian data basis pursuit

发现论文，激发创造

噪声数据最小 L1 范数插值的紧密界限

提供了最小 L1 - 范数插值器的预测误差的匹配上下界，实现了噪声下最小范数插值的渐进一致性，这是第一篇研究针对等向特征和稀疏真相的文献，补充了关于最小 L2 - 范数插值的 “良性过拟合” 的文献，当特征是有效低维时，才能实现渐进一致性。

Nov, 2021

岭回归中的良性过拟合

本研究探讨了过参数化模型在插值噪声数据时的行为，分析了数据的协方差结构和高效秩的子空间是如何影响该现象的发生，并提供了正则化条件下的结果。

Sep, 2020

强归纳偏置可证明防止无害插值

本文通过研究感知偏差的强度程度，探讨了过度拟合噪声现象所谓 “良性过度拟合” 或 “无害插值” 时的影响因素，给出了高维卷积核回归收敛界限的紧密非渐进限制，并提供了旋转不变性差异的不同滤波器尺寸深度神经网络的经验证据。

Jan, 2023

回归中的无害噪声数据插值

本研究探讨了深度神经网络在训练数据含有噪声且参数个数超过数据点个数时，仍能够实现零训练误差且具有泛化能力的机制，并阐述了过拟合和特征选择不佳对泛化能力的影响。

Mar, 2019

深度线性网络在浅层网络无法时可能出现良性过拟合

本研究针对使用梯度流训练的深度线性网络的过度风险进行了边界限制，发现与最小 l2 范数插值的已知边界非常接近或者相等，深度并不能提高算法隐藏噪声的能力，并通过模拟数据验证了该边界的典型行为。

Sep, 2022

普通最小二乘插值器的代数和统计性质

通过提供 OLS 插值器的高维代数和统计结果，我们对其一般化能力和因果推断具有实质性影响进行了研究，此外，我们还在高斯 - 马尔可夫模型下提出了统计结果和方差估计的分析。

Sep, 2023

神经网络中良性过拟合现象的理解探讨

本研究探讨了现代机器学习模型中广泛存在的过度拟合现象及理论预测，表明超学习风险会在满足一定条件的情况下逐渐减小，并且在两层神经网络中使用 ReLU 激活函数的情况下具有近最小化学习率的能力。同时，还发现当网络参数数量超过 O (n^2) 时，超学习风险开始增加，这与最近的实证结果相符。

Jun, 2021

关于均匀收敛和低范数插值学习

本研究在考虑一个欠定的，有噪音的线性回归模型，其中最小范数插值预测器因为一致性而被认为是有效的，研究者探究是否均匀收敛以及范数球时的学习机制能够解释其成功，发现虽然均匀收敛不能证明范数球中的学习，但可以用一种略弱但比较常见的方式解释最小范数插值器一致性的存在，同时该研究使用这种方式限定了低（但不是最小）范数插值器的泛化误差。

Jun, 2020

鲁棒线性回归：多项式时间内的最优速率

本文提出了一种在数据为超收缩分布、存在不可避免的敌对噪声情况下，基于平方和框架的线性模型学习算法，该算法的收敛速度与扰动的比例成幂率关系，能达到理论最优收敛速度且在先前研究中未被发现。

Jun, 2020

高斯矩阵的 LASSO 风险

本文考虑从具有噪音的线性观测中学习系数向量 x0，通过解决 L1 惩罚的最小二乘问题，即 LASSO 或 BPDN 问题构造一种稀疏估计器 x'，对于随机矩阵序列 A，我们证明了 LASSO 的规范风险趋于极限，并获得了该极限的一个显式表达式，并进行了实际数据矩阵的模拟，表明我们的结果在广泛的实际应用中都是相关的。

Aug, 2010