足够校准

May, 2021

Calibrating sufficiently

Dirk Tasche

TL;DR研究表明，通过使用共单调性作为评估标准，可以缩小概率分类器在校准过程中可观测信息和实际利用信息之间的差距，并且使用 Brier 曲线作为辅助工具可以支持概率分类器的训练和 ' 充分 ' 校准。

Abstract

When probabilistic classifiers are trained and calibrated, the so-called grouping loss component of the calibration loss can easily be ove

发现论文，激发创造

本文研究了分类器给出可靠置信度分数的能力，在分组损失的影响下，提出了适用于标准设置下的分组损失估计器，利用该估计器证明了现代神经网络在计算机视觉和自然语言处理中存在分组损失

Oct, 2022

该研究提出了两种技术，一种是简化校准方法，将原问题转化为更简单的问题，并使用非参数重新校准方法进行解决，另一种是基于神经崩溃现象和大多数精确分类器可以被认为是 K 个不同函数的组合的观察来提出针对每个类别独立重新校准的方法。将这两种方法应用在一起可以减少预测和每个类别的校准误差。

Oct, 2022

研究了概率分类器的不确定性表示和校准，提出了基于概率理论的校准评估框架并增加了新的评估和可视化工具。

Feb, 2019

这篇论文提出了第一个框架，统一了概率预测模型的校准评估和测试，并应用于分类和任意维度回归模型。

Oct, 2022

简化针对多分类替代损失计算校准函数的过程，提出了一种流线化分析方法，以得到利于非参数设置的紧凑且精确的校准函数，而无需为每种新的替代损失重新推导。

Sep, 2016

在安全关键应用的不确定性量化和决策中，概率模型的校准至关重要，在存在最小协变量转移时，针对校准的问题已受到广泛研究，我们提出了一种基于重要性采样的方法来解决这个问题，并在真实数据集和合成数据集上评估和讨论了我们的方法的有效性。

Jun, 2020

本文探讨了机器学习分类器中出现的过度置信和欠置信问题，介绍了衡量分类器置信度的度量标准 —— 准确率校准度，以及该度量标准不足的缺点；进而进行了一项全面的实证研究，并开源了一种度量方法的库。实证研究发现，不同的度量标准对于分类器校准度的优化与评价可能会带来截然不同的结论。

Apr, 2019

我们提出一种多类别标签问题的校准方法，通过多项式时间和样本复杂度来高效校准预测器，以获得对二元分类问题的强有力保证。

Feb, 2024

通过改进的测试程序，我们引入了一种新的基于改变点检测的校准测试方法，可以有效评估风险预测模型的准确性和算法的公平性。

Jul, 2023

文章讨论了多类别分类中的概率模型拟合和校准问题，并提出了一种基于矩阵核的估计器来解释校准度量的测试统计量。

Oct, 2019