基于数据驱动的误差估计:无技术债务的多重错误上界
数据组织结构对机器学习算法的有效性有巨大影响,特别是对于二元分类任务。本研究提供了一个理论框架,表明给定数据集上二元分类器的最大潜力主要受到数据固有特性的限制。通过理论推理和实证检验,我们得出两个主要结论:首先,我们展示了在实际数据集上二元分类的性能的理论上界是可以被理论上达到的;这个上界代表了学习损失和评估指标之间的可计算平衡。其次,我们计算了三个常用评估指标的精确上界,揭示了与我们的总体论点的基本一致性:上界与数据集的特征紧密联系,与所使用的分类器无关。此外,我们的后续分析揭示了性能上限与二元分类数据中类别重叠水平之间的详细关系,这对于确定在特征工程中使用的最有效的特征子集至关重要。
Jan, 2024
本研究提出了一种简单直接的贝叶斯误差估计方法,可用于评估分类器和检测测试集过拟合。我们的方法灵活且无模型和实例需求,甚至适用于弱监督数据。实验结果表明,最近提出的深度网络,如 Vision Transformer 等,已经或即将达到基准数据集的贝叶斯误差。最后,我们还讨论了如何通过估计 ICLR 论文的贝叶斯误差来研究科学文章的接受 / 拒绝决策的困难程度。
Feb, 2022
研究了交叉验证的中心极限定理和渐近方差一致估计,为 $k$ 折测试错误的可实现渐近精确置信区间和有效的假设测试提供了理论框架,并且在真实数据实验中表现优异。
Jul, 2020
本文提出了一种广义的 HP divergence 测量方法,用于估计有标签数据样本的 Bayes error rate,并证明了该方法比基于成对测量方法和 Lin 提出的方法更紧密,展示了应用该方法进行特征还原策略和深度学习结构评估的工具。
Nov, 2018
在 AutoML 环境下,比较评估了 9 种最先进的方法和变体在置信区间(CI)估计方面的表现,以包含百分比、CI 的紧致性和执行时间为指标,结果支持 BBC-F 和 BBC 在所有度量指标上优于其他方法。
Jun, 2024
本文提出了一个学习如何对最佳分类器的表现进行基准测试的框架,实现了对贝叶斯误分类误差率的准确评估,基于一个包含估计器的集成学习器和切比雪夫逼近进行基准学习,通过实验验证,相较之前的方法精确的评估了贝叶斯误差率。
Sep, 2019
研究通用的随机变量最大期望值的两种常见估计量的准确性:最大样本平均值的一般化和交叉验证。通过研究和限定上述估计量的偏差和方差,并证明了其一致性。交叉验证的方差可以显著减小,但风险是引入大偏差;交叉验证不同变体的偏差和方差因问题而异,选择错误可能导致估计结果不准确。
Feb, 2013