通过近似留一法估计可扩展的样本外预测误差
模型推理是模型开发的重要部分,Leave-one-out 交叉验证方法在评估模型泛化能力方面普遍适用,但是不适用于大型数据集。我们提出了一种结合近似推理技术和大小为概率比例采样的方法,用于快速评估大型数据集的 LOO 模型,提供了理论和实证结果来说明其性能优良。
Apr, 2019
本文主要研究了 Bayesian model 的 Bayesian cross-validation 技术在高斯潜在变量模型中的应用,通过 Laplace method 或 expectation propagation 方法来估计与推断,旨在评估快速方法的准确性和可靠性。实证结果表明,基于 LOO 边缘分布(cavity distribution)的高斯近似法可获得最准确可靠结果。
Dec, 2014
研究了基于留一残差的预测区间在线性回归模型中的应用,该模型的解释变量个数可以比样本大小还大。在对未知错误分布和高维设计做出最小的假设的情况下,建立了所提出区间的统一渐近有效性。预测区间可适用于许多线性预测器,如强健 M 估计量、James-Stein 类估计量以及像 LASSO 的惩罚估计量。这些结果表明,尽管重新采样程序在对未知参数进行推理时存在严重问题,但留一出方法仍可以成功应用于高维数据,以获得可靠的预测推断。
Feb, 2016
我们提出了一种快速计算方法,用于 $k$- 最近邻回归的留一交叉验证(LOOCV)。我们表明,在最近邻的打破平局条件下,$k$- 最近邻回归的 LOOCV 均方误差估计与在训练数据上评估的 $(k+1)$- 最近邻回归的均方误差相同,乘以缩放因子 $(k+1)^2/k^2$。因此,为了计算 LOOCV 分数,只需要拟合 $(k+1)$- 最近邻回归一次,而不需要根据训练数据进行 $k$- 最近邻回归的训练验证重复次数。数值实验证实了该快速计算方法的有效性。
May, 2024
针对高维线性回归模型的参数拟合问题,考虑基于 Lasso 惩罚的最小二乘估计器的置信区间和 p 值的构造及去偏的版本,进一步在随机设计模型的情形下进行研究,并提出了更优的平均检测功率的分析结果。
Nov, 2013
本文研究线性收缩估计器的参数选择,并提出了数据驱动的交叉验证方法,用于自动选择收缩系数,以最小化估计误差的弗罗贝尼乌斯范数。该方法不仅适用于使用样本协方差矩阵和多种典型收缩目标的收缩设计,还可用于使用一般收缩目标,多个目标和 / 或基于最小二乘法的协方差矩阵估计器的方案,并在数种不同的阵列信号处理问题中展示了应用。
Oct, 2018
通过研究我们发现,在机器学习模型的性能评估中,交叉验证方法会引入分布偏差现象,导致性能评估及超参数优化受到负面影响。为了解决这个问题,我们提出了一个通用的校正分布偏差的交叉验证方法,并通过合成模拟和多个已发布的实验验证结果。
Jun, 2024
研究了 Lasso 估计器在事实和半监督学习的风险界限,提出了新的适应 lasso 到有限的响应变量和有限的高维协变量的设置,并建立了期望和差异的 oracle 不等式。
Jun, 2016