公正和校准

NIPSSep, 2017

On Fairness and Calibration

Geoff Pleiss, Manish Raghavan, Felix Wu, Jon Kleinberg, Kilian Q. Weinberger

TL;DR本论文探讨了在不同人群中最小化误差差异和维护校准概率估计之间的紧张关系，并表明校准只与单一误差约束兼容。

Abstract

The machine learning community has become increasingly concerned with the potential for bias and discrimination in predictive models. This

machine learning bias discrimination fairness calibration

发现论文，激发创造

走向公正和校准的模型

在这项研究中，我们提出了一种同时具备公平性和校准性的模型构建方法，通过基于温度缩放的简单后处理技术来实现，同时对现有的校准损失函数进行修改以进行组内校准，从而在多种场景下实现公平和校准的模型。

Oct, 2023

公平性的测度和误测：公平机器学习的关键综述

公平机器学习的早期专注是确保由算法指导的决策是公平的，三个公平定义引起了人们的关注，即反分类，分类平衡和校准，但这三个公平定义都有重大的统计局限性。相比之下，我们认为更倾向于根据最准确的风险估计对类似风险的人进行相似的处理，而不是一定要满足公平的数学定义，并强调这种方法需要大量的努力来构建适当的风险估计。

Jul, 2018

探究医学图像分析中的标定偏差问题

本研究探讨了医疗影像分析中的人工智能系统的公平性问题，特别是围绕判定偏见和校准偏见的研究，并展示了通常使用的多种校准指标对样本量存在系统性偏差的情况，如果未考虑到这一点，可能会导致错误的公平性分析。

May, 2023

我的分类器为什么具有歧视性？

针对敏感应用如医疗保健或刑事司法等领域，本研究旨在解决在预测模型中公平性与准确性的平衡问题，并提出，应该在数据的背景下评估预测结果的公平性，并通过数据收集来解决样本大小或未测量的预测变量所带来的不公平性，同时通过将成本基准的歧视度量分解为偏差，方差和噪音，并提出旨在估计和减少每个术语的行动。最后，本文以收入，死亡率和审查等领域的预测为案例研究，确认这种分析方法的价值，并发现数据收集通常是减少歧视而不牺牲准确性的手段。

May, 2018

关于对抗偏差和公正机器学习的鲁棒性

为保证公正性，公平机器学习算法致力于消除不同群体间的行为差异，但是研究表明，在训练数据存在偏差的情况下，将同等的重视不同规模和分布的不同群体，可能会与鲁棒性相冲突，攻击者可以通过对样本和标签的控制来攻击群体公平性机器学习，从而在测试数据上显著降低测试准确率，本文评估了多种算法和基准数据集的攻击，分析了公平机器学习的鲁棒性。

Jun, 2020

分类中公平的代价

本文研究学习分类器的公平性约束问题并提出了三种解决方案，分别是将两个现有的公平性度量关联到成本敏感风险，显示了对于成本敏感分类和公平性度量的最优分类器是类概率函数的实例相关阈值，并展示了准确性和公平性之间的权衡是通过目标和敏感特征的类概率之间的一致性来确定的。支撑我们分析的是一个通用框架，将具有公平要求的学习问题建模为两种统计风险差异的最小化问题。

May, 2017

临床风险预测公平机器学习的实证表征

该研究探讨了使用机器学习指导临床决策可能加剧现有的健康差距问题的潜力，并分析了算法公平的适用性、技术限制以及与机器学习在医疗保健中使用相关的社会技术背景。研究结果表明，在对各组之间的预测分布差异进行惩罚的情况下，几乎所有团体内的多项绩效指标都会降低，并且算法公平性方法在消除健康差距方面仍存在许多有待解决的问题。

Jul, 2020

公平精确性平衡下的内在公平性 - 准确性权衡

机器学习在执法、刑事司法、金融、招聘和招生等领域的日益广泛应用，确保机器学习辅助决策的公平性变得越来越关键。本文以统计学的 “平等机会” 概念为基础，研究了公平性和准确性之间的折衷。我们提出了一个新的准确性上限（适用于任何分类器），并将其作为公平预算的函数。此外，我们的上限还与数据、标签和敏感群体属性的底层统计学关系密切相关。通过对三个真实世界数据集（COMPAS、成年人和法学院）进行经验分析，我们验证了我们理论上限的有效性。具体而言，我们将我们的上限与文献中各种现有公平分类器所实现的折衷情况进行了比较。我们的结果表明，在统计差异存在的情况下，实现高准确性条件下的低偏差可能从根本上受到限制。

May, 2024

算法决策的主动公平性

本研究提出了一种基于主动框架的公平分类方法，通过根据不同群体或个体的需求自适应获取信息来平衡分类性能差异，证明了该方法可以显著优于基于随机化的分类器。

Sep, 2018

面向（可计算识别的）大众的校准

针对算法可能存在的歧视问题，该研究提出了一种新的算法公平度量标准，名为 multicalibration，保证对每个子人群的预测都准确，从而实现更加精准的预测和防止歧视问题的出现。

Nov, 2017