高维无脊岭最小二乘插值中的惊喜
使用不带显式正则化的核 “无岭” 回归及非线性核函数能完美拟合训练数据,本文分离了最小范数插值解的隐含正则化现象,这是由于输入数据的高维性、核函数的曲率以及数据的几何特性所导致的,并给出了一种数据相关的外样本误差的上界估计。
Aug, 2018
本文从均方误差的角度对 ridgeless interpolation least squares estimator 进行分析,证明相对于样本大小引入大量不重要的参数能够有效降低估计器的均方误差,并且利用回归误差的方差 - 协方差矩阵的迹来刻画估计困难。
May, 2023
证明了在 ridgeless 线性回归中,标签噪声导致的预期平均平方泛化误差的非渐进分布独立下界,并推广了类似的已知结果到过参数化(插值)区域,并适用于具有几乎定概率的全秩特征矩阵的广泛输入分布类,包括根据随机深度神经网络构造的特征映射。
Oct, 2020
通过提供 OLS 插值器的高维代数和统计结果,我们对其一般化能力和因果推断具有实质性影响进行了研究,此外,我们还在高斯 - 马尔可夫模型下提出了统计结果和方差估计的分析。
Sep, 2023
在神经切向(NT)区域的背景下,研究了过参数化现象和它们的推广误差特征,揭示了经验 NT 内核的特征并且证明了测试误差可以被无穷宽内核的核岭回归误差很好地近似。
Jul, 2020
通过随机对偶理论,我们研究了完全行 / 列相关的线性回归模型,并考察了最小范数插值器、最小二乘法和岭回归器等几种经典估计方法。我们的结果表明,闭式计算的结果精确描述了所有相关的估计方法关于优化目标的特征,包括预测风险(测试或泛化误差),并定性地揭示了风险随特征数目 / 样本大小比增加而呈现的非单调行为(即所谓的双峰现象)。此外,我们的结果特例与 [6,16,17,24] 中使用谱方法获得的相应结果完全一致(前提是没有样本内 / 时间序列相关性)。
Jun, 2024
我们考虑相关的因子回归模型(FRM),并分析经典岭插值器的性能。利用强大的随机对偶理论(RDT)数学引擎,我们得到了基于最优化问题和所有相关优化量的精确闭合形式表征。特别地,我们提供了过度预测风险的表征,清楚地展示了对所有关键模型参数、协方差矩阵、载荷和维度的依赖性。作为过参数化比例的函数,广义最小二乘(GLS)风险也表现出众所周知的双下降(非单调)行为。与经典线性回归模型(LRM)类似,我们证明了这种 FRM 现象可以通过最优调整的岭正则化来平缓。理论结果得到了数值模拟的补充,并观察到两者之间的极好一致性。此外,我们注意到 “岭平滑” 通常在超参数化比例大于 5 时效果有限,并且在超参数化比例大于 10 时几乎没有效果。这加固了最近最流行的神经网络范式之一 ——“零训练(插值)广义良好泛化”—— 在 FRM 估计 / 预测环境中具有更广泛的适用性。
Jun, 2024
本篇论文提出了一个回归模型的理论,在训练数据中具有比数据点更多的参数,这种模型被称为过度参数化模型,有能力插值训练数据,最好的模型是过度参数化的,与模型阶数呈双峰形。我们分析了最小二乘问题的最小化的解的内插模型,以及使用岭回归进行模型拟合的情况。同时也提出了一个基于回归矩阵最小奇异值行为的结果,可以解释测试误差随模型阶数的峰值位置和双峰形状。
Apr, 2023