超越分类的风险评分公正性:二分排名和 xAUC 指标
衡量偏见,我们鼓励团队使用 AUC Gap:子组的最高和最低测试 AUC 之间的绝对差异(例如,性别,种族,SES,先前知识)。它对所使用的 AI/ML 算法不加偏好,并捕捉了模型在任意数量的子组中的性能差异,从而实现了关于交叉身份群体的公正评估。LEVI 团队利用各种 AI/ML 模型,追求在低收入中学中将数学成就增加一倍的共同目标。确保这些模型在训练集在许多不同环境中收集所得的情况下不引入或放大偏见对于实现 LEVI 目标至关重要。为了为所有 LEVI 团队创建一个共同的基准和分析依据,我们在这里提供了一种通用且易于计算的模型偏见度量,以及分享哪些策略适用于不同团队的分析基础。
Sep, 2023
提出了一个与算法公平性相关的、适用于二元排名的后处理框架 xOrder,通过优化不同保护组之间的最优变形路径来实现算法的公平性,并在多个数据集上验证了其效果和性能。
Jul, 2023
本文提出了一种通过 Doubly Robust 估计器扩展并调整之前的后处理方法来预测反事实情形下的公平解释器的方法,并提供了任意定制后处理解释器的风险和公平性的 Doubly Robust 估计器。其结果可以更好地应用于 Risk Assessment Instruments 这样的领域。
Sep, 2020
这篇论文探讨了机器学习算法在高影响临床决策系统中应用的公平性、可解释性和透明度,提出了一种基于倾向评分和决策树的算法指南,帮助临床医生识别模型的可预测缺陷,同时指导算法开发人员改进数据源和结构以解决这些缺陷。
Nov, 2020
本文提出了针对算法风险评估工具的反事实度量方法,并使用双重稳健估计方法估算反事实度量。作者提出的度量方法更适合在决策上下文中使用;因此,纵观标准公平度量和反事实度量,两者仅在特定条件下才能同时成立,本文提供了理论结果和实证结果以证明他们的方法优于标准做法。
Aug, 2019
本文提出了一种模型不可知的方法,将一个选择函数与给定的概率二元分类器相关联,以最优化 AUC,并且通过使用 AUCROSS 算法来取得成功,从而在交换覆盖率和 AUC 之间达到最佳平衡。
Oct, 2022
提出了一种基于实值评分函数构建的方法,通过针对专用统计量的经验分位数来研究本地排名问题的经验风险最小化,并提出了一些特殊的性能度量来扩展 AROC 标准,并描述了这些新标准的最优元素。
Nov, 2006