在次线性时间内进行校准测试

Feb, 2024

Testing Calibration in Subquadratic Time

Lunjia Hu, Kevin Tian, Chutong Yang

TL;DR通过近期关于机器学习和决策的文献，校准已成为二进制预测模型输出的理想和广泛研究的统计特性，本文通过性质测试的角度启动了校准的算法研究，设计了一种基于近似线性规划的算法，解决校准测试问题，同时开发了对该测试问题容差化的算法，并给出了其他校准距离的样本复杂性下界。

Abstract

In the recent literature on machine learning and decision making, calibration has emerged as a desirable and widely-studied statistical property of the outputs of →

machine learning calibration binary prediction models algorithmic study linear programming

发现论文，激发创造

关于顺序预测中的校准距离

我们研究了一种顺序二进制预测设置，在其中预测者根据校准距离进行评估，该距离定义为预测值与事后完美校准的预测集之间的 L1 距离。我们证明了存在一种预测算法，可以在对手选择的 T 个二进制结果序列上期望实现 O (√T) 的校准距离，证明了校准距离可以通过较低的校准距离准确近似得出，并且可以通过在线学习和 Lipschitz 类的简单极小最大化方法实现 O (√T) 的较低的校准距离。我们还证明，即使在对手输出的独立随机比特序列时，并且具有提前停止（即，在剩余步骤中停止产生随机比特并输出相同的比特）的额外功能，无法避免出现 Ω(T^(1/3)) 的校准距离。有趣的是，如果没有提前停止，预测者可以实现一个较小的校准距离为 polylog (T)。

Feb, 2024

超越分类的校准测试

这篇论文提出了第一个框架，统一了概率预测模型的校准评估和测试，并应用于分类和任意维度回归模型。

Oct, 2022

学习再测试：校准预测算法以实现风险控制

介绍了一种框架，用于通过多重假设检验重新定义风险控制问题来校准机器学习模型，从而保证其预测结果符合明确的统计保证。

Oct, 2021

深度学习中的校准度量

本文探讨了机器学习分类器中出现的过度置信和欠置信问题，介绍了衡量分类器置信度的度量标准 —— 准确率校准度，以及该度量标准不足的缺点；进而进行了一项全面的实证研究，并开源了一种度量方法的库。实证研究发现，不同的度量标准对于分类器校准度的优化与评价可能会带来截然不同的结论。

Apr, 2019

关于计算效率的多分类校准

我们提出一种多类别标签问题的校准方法，通过多项式时间和样本复杂度来高效校准预测器，以获得对二元分类问题的强有力保证。