分类模型的校准评估

Feb, 2019

Evaluating model calibration in classification

Juozas Vaicenavicius, David Widmann, Carl Andersson, Fredrik Lindsten, Jacob Roll...

TL;DR研究了概率分类器的不确定性表示和校准，提出了基于概率理论的校准评估框架并增加了新的评估和可视化工具。

Abstract

probabilistic classifiers output a probability distribution on target classes rather than just a class prediction. Besides providing a clear separation of prediction and decision making, the main advantage of probabilistic models is their ability to represent uncertainty about predicti

发现论文，激发创造

概率校准树

提出了概率校准树，是一种修改后的逻辑模型树，它识别输入空间中的不同区域，在这些区域中学习不同的概率校准模型以提高性能。与等单调回归和Platt缩放方法相比，我们的方法的平均根均方误差更低，适用于各种基础学习器产生的概率估计。

Jul, 2018

用于分类的非参数校准

提出了一种调整分类器置信度估计的方法，使其接近正确分类的概率，该方法利用了潜在高斯过程的非参数表示，并针对多类分类进行了特别设计，适用于任何输出置信度估计的分类器，不限于神经网络，实验证明其性能强。

Jun, 2019

多类别分类中的校准测试：一个统一的框架

文章讨论了多类别分类中的概率模型拟合和校准问题，并提出了一种基于矩阵核的估计器来解释校准度量的测试统计量。

Oct, 2019

无监督下协变量偏移的校准

在安全关键应用的不确定性量化和决策中，概率模型的校准至关重要，在存在最小协变量转移时，针对校准的问题已受到广泛研究，我们提出了一种基于重要性采样的方法来解决这个问题，并在真实数据集和合成数据集上评估和讨论了我们的方法的有效性。

Jun, 2020

基于类别和降维的校准方法

该研究提出了两种技术，一种是简化校准方法，将原问题转化为更简单的问题，并使用非参数重新校准方法进行解决，另一种是基于神经崩溃现象和大多数精确分类器可以被认为是K个不同函数的组合的观察来提出针对每个类别独立重新校准的方法。将这两种方法应用在一起可以减少预测和每个类别的校准误差。

Oct, 2022

超越分类的校准测试

这篇论文提出了第一个框架，统一了概率预测模型的校准评估和测试，并应用于分类和任意维度回归模型。

Oct, 2022

关于测量离散概率神经网络的校准

使用条件核平均嵌入测量标定差异，以提高机器学习模型的不确定性量化，并消除偏差和参数假设。初步实验基于合成数据展示了该方法的潜力，并计划用于更复杂的应用。

May, 2024

评估后验概率：决策理论、适当评分规则与校准

本文针对当前机器学习分类器后验概率评估的不足，提出采用期望适当评分规则（PSRs）作为后验质量的主要评估指标，而非常用的校准度量（如期望校准误差，ECE）。研究发现，校准度量只能反映后验质量的一个方面，忽视了区分性能，而期望PSRs能够提供更全面的质量评估，具有重要的理论和实践意义。

Aug, 2024

二元分类中的谨慎校准

本研究解决了高风险场景中机器学习系统决策过程中校准概率不足的问题。提出的谨慎校准概念旨在为每个预测概率生成故意保守的估计，这种方法能有效降低过高估计带来的潜在风险。实验结果表明，该方法在提供谨慎估计方面表现出色，为该新框架的进一步发展奠定了坚实的基础。

Aug, 2024

基于风险的概率分类器校准

本研究针对概率分类器的经验风险（0-1损失）进行了校准，填补了由于模型概率分布引发的性能差距。提出的基于风险的校准方法（RC）通过优化学习算法来调整分类器参数，显著降低了经验错误，尤其是在使用朴素贝叶斯、二次判别分析和逻辑回归的测试中，其表现优于梯度下降法。

Sep, 2024