多校准统一收敛的样本复杂度

该研究是第一项全面评估选定模型的多校准后处理在广泛标签、图像和语言数据集上的实用性，并总结了：（1）开箱即用的模型往往相对多校准且无需额外的后处理；（2）多校准后处理可以改善本质上无法校准的模型；（3）传统的校准度量有时会隐含地提供多校准度。此外，还总结了许多独立的观察结果，对实际应用多校准后处理在现实环境中具有实用性和有效性的情况可能有所帮助。

Jun, 2024

Field-aware Calibration：可靠概率预测的简单有效方法

本文提出了一种新的评估指标，称为 “field-level calibration error”，用于衡量决策者关注的敏感输入领域中预测偏差，提出了一种名为神经校准的后续校准方法，使用验证集中的领域感知信息进行校准，并通过实验证明其对常见度量（如负对数似然、布里尔分数和 AUC）以及所提出的 “field-level calibration error” 指标的校准性能得到了显著提高。

May, 2019

超越协变量偏移的多重校准与外域推广的桥梁

通过多校准，建立一个新的无模型偏见优化框架，确保预测器在一组重叠群体中实现校准，从而与协变量偏移下的统计推断的稳健性相关联，并扩展多校准以包括考虑协变量和标签的分组函数，从而实现包括概念变化在内的预测任务的稳健性。

Jun, 2024

关于计算效率的多分类校准

我们提出一种多类别标签问题的校准方法，通过多项式时间和样本复杂度来高效校准预测器，以获得对二元分类问题的强有力保证。

Feb, 2024

多类别分类中的校准测试：一个统一的框架

文章讨论了多类别分类中的概率模型拟合和校准问题，并提出了一种基于矩阵核的估计器来解释校准度量的测试统计量。

Oct, 2019