针对算法可能存在的歧视问题,该研究提出了一种新的算法公平度量标准,名为 multicalibration,保证对每个子人群的预测都准确,从而实现更加精准的预测和防止歧视问题的出现。
Nov, 2017
本文研究了神经网络的表征方面,揭示使用最小化平方误差可以达到多重校准目标,从而提高了公平性。
Apr, 2023
本论文探讨了在不同人群中最小化误差差异和维护校准概率估计之间的紧张关系,并表明校准只与单一误差约束兼容。
Sep, 2017
通过多校准算法,我们不仅能预测标签分布的期望值,还能预测更高阶矩,这为在各个子群体上估计不确定性和诊断特征的不公平性提供了一个原则性的方法。
Aug, 2020
通过使用 “多校准” 技术,本文提出为大型语言模型生成可解释和可靠的置信度分数。通过在各种数据交叉组合上同时校准,可以显著提高校准和准确性。
Apr, 2024
该研究是第一项全面评估选定模型的多校准后处理在广泛标签、图像和语言数据集上的实用性,并总结了:(1)开箱即用的模型往往相对多校准且无需额外的后处理;(2)多校准后处理可以改善本质上无法校准的模型;(3)传统的校准度量有时会隐含地提供多校准度。此外,还总结了许多独立的观察结果,对实际应用多校准后处理在现实环境中具有实用性和有效性的情况可能有所帮助。
Jun, 2024
本文提出了一种新的评估指标,称为 “field-level calibration error”,用于衡量决策者关注的敏感输入领域中预测偏差,提出了一种名为神经校准的后续校准方法,使用验证集中的领域感知信息进行校准,并通过实验证明其对常见度量(如负对数似然、布里尔分数和 AUC)以及所提出的 “field-level calibration error” 指标的校准性能得到了显著提高。
May, 2019
通过多校准,建立一个新的无模型偏见优化框架,确保预测器在一组重叠群体中实现校准,从而与协变量偏移下的统计推断的稳健性相关联,并扩展多校准以包括考虑协变量和标签的分组函数,从而实现包括概念变化在内的预测任务的稳健性。
我们提出一种多类别标签问题的校准方法,通过多项式时间和样本复杂度来高效校准预测器,以获得对二元分类问题的强有力保证。
Feb, 2024
文章讨论了多类别分类中的概率模型拟合和校准问题,并提出了一种基于矩阵核的估计器来解释校准度量的测试统计量。
Oct, 2019