平滑ECE: 基于核平滑的可靠性图

Sep, 2023

Smooth ECE: Principled Reliability Diagrams via Kernel Smoothing

Jarosław Błasiok, Preetum Nakkiran

TL;DR通过对观测值进行平滑处理并计算期望校准误差（Expected Calibration Error，ECE）来修正可视化和衡量概率预测器校准性的最常见方法—分段和ECE，从而获得一种行为良好的校准衡量方法——SmoothECE。此外，通过对平滑函数进行可视化，可以得到与分段可靠性图表相对应的可靠性图表。

Abstract

calibration measures and reliability diagrams are two fundamental tools for measuring and interpreting the calibration of probabilistic predictor

发现论文，激发创造

分类模型的校准评估

研究了概率分类器的不确定性表示和校准，提出了基于概率理论的校准评估框架并增加了新的评估和可视化工具。

Feb, 2019

缓解校准误差估计中的偏差

研究AI系统在决策中的可靠性，提出了一种新的校准误差评估方法，并分析了常见神经结构的同类输出，提出基于等质量分组的估计器可以降低偏差，提出两种可靠的校准误差估算器，并观察到重新校准方法的有效性和模型渐进失真检测的提高。

Dec, 2020

神经网络的软校准目标

为了更好地进行决策，神经网络的不确定性需要和其经验准确性相一致。本研究提出基于连续的分组操作的可微损失函数用于改善神经网络的校准。实验结果表明使用此方法不仅能大幅度降低误差校准误差，还能在保持准确性不变的同时，得到更好的不确定性估计。

Jul, 2021

神经网络的校准

该论文研究了神经网络中置信度校准的问题，并提供了校准方法的经验比较，分析了可视化和标量测量评估模型置信度校准的不同方法，并对基于后处理或对训练进行更改的现代校准技术进行了评估，实验结果覆盖了各种数据集和模型，比较了不同标准下的校准方法。

Mar, 2023

基于分布匹配的校准：可训练核校准度量

校准方法的研究提出了基于核的校准评估指标，将校准问题视为分布匹配任务，用于分类和回归，通过优化实证风险最小化的校准目标，在决策任务中提供了直观机制来量化指标和做出准确的损失估计和无悔决策，实验结果表明在一系列分类和回归任务中，这些指标作为正则化项能够提高校准度、预测的准确性以及决策能力，超过仅仅依靠事后校准的方法。

Oct, 2023

适当校准误差的一致且渐近无偏估计

提出了一种方法，可以一致且渐近无偏地估计所有适当的校准误差和改进术语，并验证了所提估计器的所述特性，并建议后续校准方法的选择应由所关注的特定校准误差决定。

Dec, 2023

ECE的缺陷程度如何？一种基于Logit平滑的分析

模型标定程度的度量方法之一是期望标定误差（ECE），但ECE在实践中存在不连续性问题。本研究通过分析ECE的不连续性，提出了一种连续且易于估计的标定误差度量指标LS-ECE，并通过对预训练图像分类模型的实验表明，ECE的理论缺陷在实践中可以避免。

Feb, 2024

关于测量离散概率神经网络的校准

使用条件核平均嵌入测量标定差异，以提高机器学习模型的不确定性量化，并消除偏差和参数假设。初步实验基于合成数据展示了该方法的潜力，并计划用于更复杂的应用。

May, 2024

评估后验概率：决策理论、适当评分规则与校准

本文针对当前机器学习分类器后验概率评估的不足，提出采用期望适当评分规则（PSRs）作为后验质量的主要评估指标，而非常用的校准度量（如期望校准误差，ECE）。研究发现，校准度量只能反映后验质量的一个方面，忽视了区分性能，而期望PSRs能够提供更全面的质量评估，具有重要的理论和实践意义。

Aug, 2024

用于 $\ell_2$ 期望校准误差的置信区间

本研究探讨了概率预测校准的重要性及其面临的挑战，提出了一种新的方法来构建$\ell_2$期望校准误差（ECE）的置信区间。研究表明，对于去偏估计器的ECE，校准与失调模型具有不同的收敛速率和渐近方差，实验证明所提方法的置信区间比重采样方法更为有效且长度更短。

Aug, 2024