使用模糊分箱进行校准误差估计

Apr, 2023

Calibration Error Estimation Using Fuzzy Binning

Geetanjali Bihani, Julia Taylor Rayz

TL;DR本文提出了一种模糊校准误差 (FCE) 度量方式，该方式利用模糊分箱法来计算校准误差，可以更好地在多类设置中估计校准误差和缓解模型置信度分数的偏斜对校准误差估计的影响。

Abstract

neural network-based decisions tend to be overconfident, where their raw outcome probabilities do not align with the true decision probabilities. Calibration of neural networks is an essential step towards more reliable deep learning frameworks. Prior metrics of →

neural network calibration error fuzzy binning multi-class settings deep learning

发现论文，激发创造

缓解校准误差估计中的偏差

研究 AI 系统在决策中的可靠性，提出了一种新的校准误差评估方法，并分析了常见神经结构的同类输出，提出基于等质量分组的估计器可以降低偏差，提出两种可靠的校准误差估算器，并观察到重新校准方法的有效性和模型渐进失真检测的提高。

Dec, 2020

神经网络的软校准目标

为了更好地进行决策，神经网络的不确定性需要和其经验准确性相一致。本研究提出基于连续的分组操作的可微损失函数用于改善神经网络的校准。实验结果表明使用此方法不仅能大幅度降低误差校准误差，还能在保持准确性不变的同时，得到更好的不确定性估计。

Jul, 2021

关于测量离散概率神经网络的校准

使用条件核平均嵌入测量标定差异，以提高机器学习模型的不确定性量化，并消除偏差和参数假设。初步实验基于合成数据展示了该方法的潜力，并计划用于更复杂的应用。

May, 2024

TCE：一种基于测试的衡量校准误差的方法

该论文提出了一种新的度量概率二元分类器的校准误差的指标，称为基于测试的校准误差（TCE），并引入了基于统计检验的损失函数和优化标准，以及针对校准误差度量的 binning 过程和优化算法，通过多个实验验证 TCE 的性质，包括多个现实世界不平衡数据集和 ImageNet 1000。

Jun, 2023

经过验证的不确定性校准

本篇论文提出一种基于 Platti scaling 和 temperature scaling 的直方图分块校准法，用于计算模型校准误差，并使用气象学中的估算器来更加准确地估计校准误差。作者在多类别校准实验中将缔合法的校准误差降低了 35％。

Sep, 2019

期望校准误差的信息论泛化分析

本文首次全面分析了两种常见的分箱策略中的估计偏差，建立了偏差的上界以实现改进的收敛速率，并给出了最小化估计偏差的最佳箱数。此外，使用信息理论方法扩展了我们的偏差分析到广义化误差分析，得出了上界，使得我们能够数值评估未知数据的 ECE 多小。深度学习模型实验证明了我们的上界在信息理论广义化分析方法的指导下是非虚无的。

May, 2024

超越概率划分：使用语义感知分组标定神经网络

文章提出了一种更广义的标定误差度量定义，即划分校准误差（Partitioned Calibration Error - PCE），并探讨了如何对数据空间进行划分，以使得深度神经网络可以更准确地校准预测。作者提出了通过语义相关的划分函数来划分输入空间的想法，通过实验证明该方法在多个数据集和网络架构上都可以获得显著的性能提升，突显了划分标准对于训练校准和准确的深度学习模型的重要性。

Jun, 2023

如何评估分类器的校准性：在特定上下文可靠性定义下的分类器校准性评估

本文针对分类器标定的问题，提出以正确描述其应用背景为目的，开发更准确反映标定误差的更具表达力的度量标准；其中，基于期望标定误差的推广，提出了几种不同的度量标准，分别反映了针对不同的可靠性定义的标定误差；此外，基于这些不同的度量标准，作者对常用的神经网络结构和标定技术进行了广泛的实证评估，发现许多常用的标定技术在这些不同可靠性定义的标定误差上并未有统一的改善.

May, 2022

深度学习中的校准度量

本文探讨了机器学习分类器中出现的过度置信和欠置信问题，介绍了衡量分类器置信度的度量标准 —— 准确率校准度，以及该度量标准不足的缺点；进而进行了一项全面的实证研究，并开源了一种度量方法的库。实证研究发现，不同的度量标准对于分类器校准度的优化与评价可能会带来截然不同的结论。

Apr, 2019

平滑 ECE: 基于核平滑的可靠性图

通过对观测值进行平滑处理并计算期望校准误差（Expected Calibration Error，ECE）来修正可视化和衡量概率预测器校准性的最常见方法 — 分段和 ECE，从而获得一种行为良好的校准衡量方法 ——SmoothECE。此外，通过对平滑函数进行可视化，可以得到与分段可靠性图表相对应的可靠性图表。

Sep, 2023