测试误差的交叉验证置信区间
该论文提出了一种用于高维模型中单个或低维组件的置信区间和统计检验的一般方法,可轻松调整用于考虑测试之间的依赖关系。该方法还自然地扩展到具有凸损失函数的广义线性模型。
Mar, 2013
通过研究我们发现,在机器学习模型的性能评估中,交叉验证方法会引入分布偏差现象,导致性能评估及超参数优化受到负面影响。为了解决这个问题,我们提出了一个通用的校正分布偏差的交叉验证方法,并通过合成模拟和多个已发布的实验验证结果。
Jun, 2024
通过单个牛顿推的启动程序,实现了对大量训练数据集的 CV 的近似,解决了 CV 运行时间长的问题;本文提供了一致的非渐进性,确定性的模型评估保证,同时也保证了与 CV 相当的模型选择性能。
Mar, 2020
本文通过理论分析,证明了 Bayes 交叉验证损失与广泛适用信息准则的随机变量是等价的,并阐明了交叉验证误差和泛化误差之间的关系取决于学习机的代数几何结构。
Apr, 2010
本文介绍了构建置信区间的方法,以评估匹配算法的误差率,并探讨了样本大小、误差率和数据相关性对覆盖率和区间宽度的影响。研究发现,在匹配任务中构建置信区间的最佳实践包括注意数据原型、选择适当的置信水平以及进行模拟和分析。
Jun, 2023
本文提出了一种针对高维数据中低维度参数的统计推断方法,重点在于构建线性回归模型中单个系数和多个系数的线性组合的置信区间,提出的估计器在趋于无穷时渐近正态,其有限维协方差矩阵的一致估计器满足充分条件,模拟结果证明了置信区间的覆盖概率准确性,强烈支持理论结果。
Oct, 2011
研究通用的随机变量最大期望值的两种常见估计量的准确性:最大样本平均值的一般化和交叉验证。通过研究和限定上述估计量的偏差和方差,并证明了其一致性。交叉验证的方差可以显著减小,但风险是引入大偏差;交叉验证不同变体的偏差和方差因问题而异,选择错误可能导致估计结果不准确。
Feb, 2013
本文探讨了预测实值属性算法的交叉验证测试误差理论,理论表明预测实值属性需要在简化和准确性之间取得平衡,并明确说明了如何达到平衡以最小化交叉验证误差。作者提出了一个通用理论,并为线性回归和基于实例的学习进行了详细阐述。
Dec, 2002