具有相关样本的岭回归中的风险和交叉验证
本研究旨在探讨在高斯设计下的核岭回归(KRR)。我们研究了噪声和正则化之间的相互作用对异常泛化误差的影响,对各种交叉设置进行了表征,并展示了在样本复杂性增加时从无噪声指数到噪声值之间存在过渡。最后,我们证明了这种交叉行为在现实数据集上也是可观测的。
May, 2021
本研究探讨了在比例渐近情况下,基于子采样的岭回归集成,通过分析岭回归集合的平方预测风险,证明了岭无偏估计器的预测风险与含所有可能子样本的完整无岭集合的预测风险相匹配,并证明了广义交叉验证对于估计岭回归集成的预测风险具有强一致性。
Apr, 2023
我们研究了在协变量和响应函数都存在重尾污染的情况下, 强鲁棒回归估计器的高维特性。尤其是, 我们针对一族包括无二阶甚至更高阶矩不存在情况下的椭圆形协变量和噪声数据分布, 提供了M-估计的锐性渐近特性描述。我们表明, 尽管具有一致性, 在存在重尾噪声的高维情形中, 优化调整的Huber损失与位置参数δ是次优的, 强调了需要进一步正则化以达到最佳性能的必要性。这个结果还揭示了δ作为样本复杂性和污染的函数的一个有趣的转变的存在。此外, 我们导出了岭回归的超额风险的衰减速率。我们表明, 对于有限二阶矩的噪声分布, 岭回归虽然是最佳的且适用的, 但当协变量的二阶矩不存在时, 它的衰减速率可能会更快。最后, 我们展示了我们的公式可以方便地推广到更丰富的模型和数据分布, 如对混合模型的任意凸正则化训练的广义线性估计。
Sep, 2023
提出了一种用于调整岭回归的正则化超参数λ的新方法,比留一法交叉验证(LOOCV)更快速计算,同时产生等效或更好的回归参数估计,尤其在稀疏协变量的情况下。
Oct, 2023
通过对核岭回归进行一般性等价性和谱特性的分析,证明了从数据中可以获得核运算符的特征分解来近似预测错误,并证明广义交叉验证方法可以用于估计核岭回归的测试误差和最优正则化参数。
Mar, 2024
提出并分析了一种基于元学习的方法,其中通过计算具有随机回归系数的高维多元随机效应线性模型的预测风险的精确渐近行为,选择广义岭回归中的权重矩阵为随机系数协方差矩阵的逆作为可扩展的度量;并通过使用从训练任务中获得的数据基于Riemannian优化方法提出并分析了估计随机回归系数的逆协方差矩阵的估计器,最后的仿真结果表明了在考虑的框架内所提出的方法对新的未观察到的测试任务的改进泛化性能。
Mar, 2024
研究了最优岭回归正则化和最优岭风险在离群分布预测中的行为,建立了决定协变量和回归变化下最优正则化水平符号的一般条件,并证明了在数据纵横比方面,即使在负正则化水平优化的情况下, 优化风险在离群分布设置中是单调递增的。
Apr, 2024
我们考虑相关的因子回归模型(FRM),并分析经典岭插值器的性能。利用强大的随机对偶理论(RDT)数学引擎,我们得到了基于最优化问题和所有相关优化量的精确闭合形式表征。特别地,我们提供了过度预测风险的表征,清楚地展示了对所有关键模型参数、协方差矩阵、载荷和维度的依赖性。作为过参数化比例的函数,广义最小二乘(GLS)风险也表现出众所周知的双下降(非单调)行为。与经典线性回归模型(LRM)类似,我们证明了这种FRM现象可以通过最优调整的岭正则化来平缓。理论结果得到了数值模拟的补充,并观察到两者之间的极好一致性。此外,我们注意到“岭平滑”通常在超参数化比例大于5时效果有限,并且在超参数化比例大于10时几乎没有效果。这加固了最近最流行的神经网络范式之一——“零训练(插值)广义良好泛化”——在FRM估计/预测环境中具有更广泛的适用性。
Jun, 2024
通过随机对偶理论,我们研究了完全行/列相关的线性回归模型,并考察了最小范数插值器、最小二乘法和岭回归器等几种经典估计方法。我们的结果表明,闭式计算的结果精确描述了所有相关的估计方法关于优化目标的特征,包括预测风险(测试或泛化误差),并定性地揭示了风险随特征数目/样本大小比增加而呈现的非单调行为(即所谓的双峰现象)。此外,我们的结果特例与[6,16,17,24]中使用谱方法获得的相应结果完全一致(前提是没有样本内/时间序列相关性)。
Jun, 2024
本研究解决了现有岭回归理论中假设训练样本独立的问题,提出了一种基于随机矩阵理论和自由概率的新方法。研究发现,当样本间存在任意相关性时,传统的广义交叉验证估计器(GCV)无法准确预测外部样本风险,但通过对噪声残差的相关性进行调整,可以得到高效可计算的无偏估计器CorrGCV,带来了重要的理论与实践价值。
Aug, 2024