TCE：一种基于测试的衡量校准误差的方法

Jun, 2023

TCE：一种基于测试的衡量校准误差的方法

TCE: A Test-Based Approach to Measuring Calibration Error

Takuo Matsubara, Niek Tax, Richard Mudd, Ido Guy

TL;DR该论文提出了一种新的度量概率二元分类器的校准误差的指标，称为基于测试的校准误差（TCE），并引入了基于统计检验的损失函数和优化标准，以及针对校准误差度量的binning过程和优化算法，通过多个实验验证TCE的性质，包括多个现实世界不平衡数据集和ImageNet 1000。

Abstract

This paper proposes a new metric to measure the calibration error of probabilistic binary classifiers, called test-based calibration error (TCE). TCE incorporates a novel →

发现论文，激发创造

无分布假设的二分类: 预测集, 置信区间和校准

研究数据无任何分布性假设条件下，针对二分类问题的不确定性量化中的三种方法——标定、置信区间和预测集，建立了连接这三个概念的三角脚架，明确了使用基于评分函数的分类器才能进行无分布标定的必要条件。我们还推导了面向固定宽度和统一质量分组的二分类问题中的无分布概率分组方法的置信区间，这些区间可以导致无分布标定。此外，我们还推导了针对流数据和协变量转移的扩展。

Jun, 2020

缓解校准误差估计中的偏差

研究AI系统在决策中的可靠性，提出了一种新的校准误差评估方法，并分析了常见神经结构的同类输出，提出基于等质量分组的估计器可以降低偏差，提出两种可靠的校准误差估算器，并观察到重新校准方法的有效性和模型渐进失真检测的提高。

Dec, 2020

评估分类器校准的“在测试集上拟合”视角的有效性

该研究通过多种后期校准方法来降低分类器的校准误差，同时提出了基于测试数据拟合一族函数来评估期望校准误差，以及引入了 PL 和 PL3 校准映射族的新的校准和评估方法。

Mar, 2022

如何评估分类器的校准性：在特定上下文可靠性定义下的分类器校准性评估

本文针对分类器标定的问题，提出以正确描述其应用背景为目的，开发更准确反映标定误差的更具表达力的度量标准；其中，基于期望标定误差的推广，提出了几种不同的度量标准，分别反映了针对不同的可靠性定义的标定误差；此外，基于这些不同的度量标准，作者对常用的神经网络结构和标定技术进行了广泛的实证评估，发现许多常用的标定技术在这些不同可靠性定义的标定误差上并未有统一的改善.

May, 2022

基于类别和降维的校准方法

该研究提出了两种技术，一种是简化校准方法，将原问题转化为更简单的问题，并使用非参数重新校准方法进行解决，另一种是基于神经崩溃现象和大多数精确分类器可以被认为是K个不同函数的组合的观察来提出针对每个类别独立重新校准的方法。将这两种方法应用在一起可以减少预测和每个类别的校准误差。

Oct, 2022

使用模糊分箱进行校准误差估计

本文提出了一种模糊校准误差 (FCE) 度量方式，该方式利用模糊分箱法来计算校准误差，可以更好地在多类设置中估计校准误差和缓解模型置信度分数的偏斜对校准误差估计的影响。

Apr, 2023

从不确定性到精确性：通过校准提升二元分类器性能

我们分析了各种校准度量对分数失真的敏感性，并引入了一种精确的度量标准，即本地校准分数，比较了校准方法，提倡使用局部回归，强调其作为有效校准工具和更平滑可视化的双重作用。我们在真实世界情景中应用这些发现，使用随机森林分类器和回归器预测信用违约，并在性能优化过程中同时测量校准度。

Feb, 2024

ECE的缺陷程度如何？一种基于Logit平滑的分析

模型标定程度的度量方法之一是期望标定误差（ECE），但ECE在实践中存在不连续性问题。本研究通过分析ECE的不连续性，提出了一种连续且易于估计的标定误差度量指标LS-ECE，并通过对预训练图像分类模型的实验表明，ECE的理论缺陷在实践中可以避免。

Feb, 2024

评估后验概率：决策理论、适当评分规则与校准

本文针对当前机器学习分类器后验概率评估的不足，提出采用期望适当评分规则（PSRs）作为后验质量的主要评估指标，而非常用的校准度量（如期望校准误差，ECE）。研究发现，校准度量只能反映后验质量的一个方面，忽视了区分性能，而期望PSRs能够提供更全面的质量评估，具有重要的理论和实践意义。

Aug, 2024

基于风险的概率分类器校准

本研究针对概率分类器的经验风险（0-1损失）进行了校准，填补了由于模型概率分布引发的性能差距。提出的基于风险的校准方法（RC）通过优化学习算法来调整分类器参数，显著降低了经验错误，尤其是在使用朴素贝叶斯、二次判别分析和逻辑回归的测试中，其表现优于梯度下降法。

Sep, 2024