在次线性时间内进行校准测试
我们研究了一种顺序二进制预测设置,在其中预测者根据校准距离进行评估,该距离定义为预测值与事后完美校准的预测集之间的 L1 距离。我们证明了存在一种预测算法,可以在对手选择的 T 个二进制结果序列上期望实现 O (√T) 的校准距离,证明了校准距离可以通过较低的校准距离准确近似得出,并且可以通过在线学习和 Lipschitz 类的简单极小最大化方法实现 O (√T) 的较低的校准距离。我们还证明,即使在对手输出的独立随机比特序列时,并且具有提前停止(即,在剩余步骤中停止产生随机比特并输出相同的比特)的额外功能,无法避免出现 Ω(T^(1/3)) 的校准距离。有趣的是,如果没有提前停止,预测者可以实现一个较小的校准距离为 polylog (T)。
Feb, 2024
本文探讨了机器学习分类器中出现的过度置信和欠置信问题,介绍了衡量分类器置信度的度量标准 —— 准确率校准度,以及该度量标准不足的缺点;进而进行了一项全面的实证研究,并开源了一种度量方法的库。实证研究发现,不同的度量标准对于分类器校准度的优化与评价可能会带来截然不同的结论。
Apr, 2019
本文提出了一种新的概念 —— 决策校准,指预测分布与真实分布在一组决策者下是 “不可区分的”。在选择有界行动的决策者的情况下,作者设计了一种重新校准算法,其样本复杂度多项式时间,并在皮肤病和 ImageNet 分类等领域中验证了该算法的有效性。
Jul, 2021
机器学习模型的校准至关重要,本文重新评估了最近文献中校准指标的报告情况,并提出了一种基于广义指标的校准度量选择和检测方法以及一种新的可视化校准和模型估计广义误差的方法。
Jun, 2024
针对模型类如何拟合标记数据的问题,我们提出了一种计算学习能力的方法,可以使用较小的数据量得出精确结果。该方法也适用于二元分类问题,并在多种真实和合成数据集上得到了验证。
May, 2018