基于数据驱动的误差估计：无技术债务的多重错误上界

May, 2024

基于数据驱动的误差估计：无技术债务的多重错误上界

Data-driven Error Estimation: Upper Bounding Multiple Errors with No Technical Debt

Sanath Kumar Krishnamurthy, Susan Athey, Emma Brunskill

TL;DR通过数据驱动的方法，我们提出了一个完全基于数据的途径来估计最大误差的上界，解决了构建多个同时有效置信区间的问题，并拓展了估计过程的应用领域。

Abstract

We formulate the problem of constructing multiple simultaneously valid confidence intervals (CIs) as estimating a high probability upper bound on the maximum error for a class/set of estimate-estimand-error tuples, and refer to this as the →

confidence intervals error estimation class complexity data-driven approach excess risk bounds

发现论文，激发创造

使用赌博方法估计有限随机变量的均值

本文引导出了计算未知均值的置信区间和时间均匀置信序列的一般方法，并应用于研究有界均值、有限抽样和无限抽样等多个问题。

Oct, 2020

高维回归的置信区间和假设检验

该文提出了一个新颖的算法，用于构建自然参数的置信区间和 p 值，并使用高维线性回归问题和一个高通量基因组数据集进行测试。

Jun, 2013

二元分类性能中的内在数据约束和上限

数据组织结构对机器学习算法的有效性有巨大影响，特别是对于二元分类任务。本研究提供了一个理论框架，表明给定数据集上二元分类器的最大潜力主要受到数据固有特性的限制。通过理论推理和实证检验，我们得出两个主要结论：首先，我们展示了在实际数据集上二元分类的性能的理论上界是可以被理论上达到的；这个上界代表了学习损失和评估指标之间的可计算平衡。其次，我们计算了三个常用评估指标的精确上界，揭示了与我们的总体论点的基本一致性：上界与数据集的特征紧密联系，与所使用的分类器无关。此外，我们的后续分析揭示了性能上限与二元分类数据中类别重叠水平之间的详细关系，这对于确定在特征工程中使用的最有效的特征子集至关重要。

Jan, 2024

深度网络的性能太好以至于不可信吗？一个直接估计二元分类贝叶斯误差的方法

本研究提出了一种简单直接的贝叶斯误差估计方法，可用于评估分类器和检测测试集过拟合。我们的方法灵活且无模型和实例需求，甚至适用于弱监督数据。实验结果表明，最近提出的深度网络，如 Vision Transformer 等，已经或即将达到基准数据集的贝叶斯误差。最后，我们还讨论了如何通过估计 ICLR 论文的贝叶斯误差来研究科学文章的接受 / 拒绝决策的困难程度。

Feb, 2022

测试误差的交叉验证置信区间

研究了交叉验证的中心极限定理和渐近方差一致估计，为 $k$ 折测试错误的可实现渐近精确置信区间和有效的假设测试提供了理论框架，并且在真实数据实验中表现优异。

Jul, 2020

多类别分类中的校准测试：一个统一的框架

文章讨论了多类别分类中的概率模型拟合和校准问题，并提出了一种基于矩阵核的估计器来解释校准度量的测试统计量。

Oct, 2019

多类别贝叶斯误差约束学习

本文提出了一种广义的 HP divergence 测量方法，用于估计有标签数据样本的 Bayes error rate，并证明了该方法比基于成对测量方法和 Lin 提出的方法更紧密，展示了应用该方法进行特征还原策略和深度学习结构评估的工具。

Nov, 2018

自动机器学习背景下的预测性能置信区间估计

在 AutoML 环境下，比较评估了 9 种最先进的方法和变体在置信区间（CI）估计方面的表现，以包含百分比、CI 的紧致性和执行时间为指标，结果支持 BBC-F 和 BBC 在所有度量指标上优于其他方法。

Jun, 2024

学习性能基准：从训练数据中确定最佳可达误分类率

本文提出了一个学习如何对最佳分类器的表现进行基准测试的框架，实现了对贝叶斯误分类误差率的准确评估，基于一个包含估计器的集成学习器和切比雪夫逼近进行基准学习，通过实验验证，相较之前的方法精确的评估了贝叶斯误差率。

Sep, 2019

估计最大期望值：（嵌套）交叉验证和最大样本平均值的分析

研究通用的随机变量最大期望值的两种常见估计量的准确性：最大样本平均值的一般化和交叉验证。通过研究和限定上述估计量的偏差和方差，并证明了其一致性。交叉验证的方差可以显著减小，但风险是引入大偏差；交叉验证不同变体的偏差和方差因问题而异，选择错误可能导致估计结果不准确。

Feb, 2013