该模型对所有人都可靠吗？强校准测试

Jul, 2023

该模型对所有人都可靠吗？强校准测试

Is this model reliable for everyone? Testing for strong calibration

Jean Feng, Alexej Gossmann, Romain Pirracchio, Nicholas Petrick, Gene Pennello...

TL;DR通过改进的测试程序，我们引入了一种新的基于改变点检测的校准测试方法，可以有效评估风险预测模型的准确性和算法的公平性。

Abstract

In a well-calibrated risk prediction model, the average predicted probability is close to the true event rate for any given subgroup. Such models are reliable across heterogeneous populations and satisfy strong notions of →

risk prediction model calibration algorithmic fairness goodness-of-fit testing changepoint detection

发现论文，激发创造

超越分类的校准测试

这篇论文提出了第一个框架，统一了概率预测模型的校准评估和测试，并应用于分类和任意维度回归模型。

Oct, 2022

随机预测个体校准

通过使用随机化的置信区间实现对每个样本测量的分配，并提高数据子组的校准度和预测效果。

Jun, 2020

学习再测试：校准预测算法以实现风险控制

介绍了一种框架，用于通过多重假设检验重新定义风险控制问题来校准机器学习模型，从而保证其预测结果符合明确的统计保证。

Oct, 2021

重新评估机器学习模型的校准比较和改进方法

机器学习模型的校准至关重要，本文重新评估了最近文献中校准指标的报告情况，并提出了一种基于广义指标的校准度量选择和检测方法以及一种新的可视化校准和模型估计广义误差的方法。

Jun, 2024

Field-aware Calibration：可靠概率预测的简单有效方法

本文提出了一种新的评估指标，称为 “field-level calibration error”，用于衡量决策者关注的敏感输入领域中预测偏差，提出了一种名为神经校准的后续校准方法，使用验证集中的领域感知信息进行校准，并通过实验证明其对常见度量（如负对数似然、布里尔分数和 AUC）以及所提出的 “field-level calibration error” 指标的校准性能得到了显著提高。

May, 2019

改进医学影像分析公平性：消除校准偏见，无需固定属性分组

为解决医学图像分析中校准偏差的问题，提出了一种基于聚类 - 焦点法的新方法 Cluster-Focal，无需在训练期间考虑亚组属性，能够管理最差亚组的校准误差，同时保持预测性能，并超越了最近的基线。

Jul, 2023

分类器中的显著性预测偏差识别

介绍了一种新颖的子集扫描方法，用于检测统计学显著的偏差或区域，以及识别分类器偏差或预测不良的特征子集，该方法使用基于子集扫描和参数引导的方法处理了指数级可能的子集。

Nov, 2016

多类别分类中的校准测试：一个统一的框架

文章讨论了多类别分类中的概率模型拟合和校准问题，并提出了一种基于矩阵核的估计器来解释校准度量的测试统计量。

Oct, 2019

走向公正和校准的模型

在这项研究中，我们提出了一种同时具备公平性和校准性的模型构建方法，通过基于温度缩放的简单后处理技术来实现，同时对现有的校准损失函数进行修改以进行组内校准，从而在多种场景下实现公平和校准的模型。

Oct, 2023

更公平、更准确，但为谁而做？

该论文介绍了一种比较不同风险评估模型公平性的框架，特别关注与种族和性别的不平等问题，以预测再犯率和贷款为例进行实验。

Jun, 2017