通过预处理、中处理和后处理实现具有线性差异约束的贝叶斯最优公平分类

Feb, 2024

通过预处理、中处理和后处理实现具有线性差异约束的贝叶斯最优公平分类

Bayes-Optimal Fair Classification with Linear Disparity Constraints via Pre-, In-, and Post-processing

Xianli Zeng, Guang Cheng, Edgar Dobriban

TL;DR机器学习算法在受保护群体上可能存在不公平影响。为解决此问题，我们开发了贝叶斯最优公平分类的方法，旨在在给定的群体公平约束条件下最小化分类错误。我们介绍了线性差异度量的概念，这些度量是概率分类器的线性函数；以及双线性差异度量，这些度量也是群体回归函数的线性函数。我们证明了几种流行的差异度量 - 从人口统计平衡、机会平等到预测平等的偏离 - 都是双线性的。我们通过在单一线性差异度量下揭示与 Neyman-Pearson 引理的联系，找到了贝叶斯最优公平分类器的形式。对于双线性差异度量，贝叶斯最优公平分类器变为群体阈值规则。我们的方法还可以处理多个公平性约束（如均衡的几率）以及在预测阶段无法使用受保护属性的常见情况。借助我们的理论结果，我们设计了在双线性差异约束下学习公平贝叶斯最优分类器的方法。我们的方法涵盖了三种流行的公平感知分类方法，包括预处理（公平上采样和下采样），进行中处理（公平成本敏感分类）和后处理（公平插件规则）。我们的方法在实现直接控制差异的同时，实现了接近最优的公平性和准确性权衡。实验证明，我们的方法比现有算法更可取。

Abstract

machine learning algorithms may have disparate impacts on protected groups. To address this, we develop methods for bayes-optimal fair classifica

machine learning algorithms fair classification disparity measures bayes-optimal protected attribute

发现论文，激发创造

通过后处理预测器实现公平且最优分类

该论文研究了机器学习中的公平性问题，提出了在保持公平的前提下如何提高预测模型性能的方法，并且证明了最小误差率可以通过 Wasserstein 平均问题的最优值来计算，从而提出了一种简单的后处理方法来保证模型的公平性。

Nov, 2022

线性后处理的最佳组公平分类器

我们提出了一个后处理算法来进行公平分类，通过统一的族群公平度量准则，包括统计平衡、平等机会和平衡赔率，来减轻模型偏差，适用于多类问题和具有属性感知和属性盲的设置。通过使用 “公平代价” 来重新校准给定基准模型的输出分数，它通过线性组合（预测的）群体成员身份来实现公平性。我们的算法是基于一种表达结果的表示方法，该结果表明最优公平分类器可以通过线性后处理损失函数和群体预测器来表示，这是通过将它们用作足够统计量，将公平分类问题重新形式化为线性规划问题来推导出来的。通过解决经验线性规划来估计后处理器的参数。对基准数据集上的实验证明了我们的算法与现有算法相比在减小差异方面的效率和有效性，特别是在更大的问题上。

May, 2024

有界种族差异的极小极大公平分类

控制统计机器学习方法的不公平影响是确保公平性的关键。本文探讨了具有两个受保护群体的公平二分类的统计基础，重点是控制人口统计差异，并提出了一种量化公平性约束影响的新方法。

Mar, 2024

后期偏倚评分在公平分类中的最优选择

在群体公平约束下考虑了二元分类问题，通过引入一种新的偏见量度，称为偏见分数，提出了贝叶斯最优分类器的显式特征，并基于该特征开发了一种满足公平约束且保持高准确率的事后方法。该方法在 Adult、COMPAS 和 CelebA 数据集上与内处理和事后处理方法相比性能竞争力更好，不同于大多数事后处理方法，我们在推断时不需要访问敏感属性。

Oct, 2023

差分隐私公正的二元分类

在本研究中，我们调查了在差分隐私和公平性的约束下的二元分类问题。我们首先提出了一种基于解耦技术的算法，用于学习一个只保证公平性的分类器。该算法接受在不同人口群体上训练的分类器，并生成一个满足统计平衡的单个分类器。然后，我们改进了该算法以加入差分隐私。在隐私、公平性和效用保证方面，对最终算法的性能进行了严格的检验。在 Adult 和 Credit Card 数据集上进行的实证评估显示，我们的算法在公平性保证方面优于现有技术，同时保持相同水平的隐私和效用。

Feb, 2024

数据受限二元分类中平衡公平性与准确性

在处理敏感信息的应用程序中，数据限制可能会对机器学习（ML）分类器的可用数据施加限制，本文提出了一个框架，模拟了在四种实际情景下准确性和公平性之间的折衷，以确定在各种数据限制情况下，贝叶斯分类器的准确性受到的影响是如何的。

Mar, 2024

关于公平感知分类器的最大局部差异

通过提出一种称为最大累积比不平等的新公平度量指标（MCDP）来衡量算法的最大局部不平等，提供比传统公平度量更准确和高效的计算方法，并通过不可导逼近的 MCDP 的优化算法提高算法公平度。在基于表格和图像的数据集上进行的广泛实验验证了我们的公平训练算法可以实现优越的公平性与准确性的权衡。

Jun, 2024

分类中公平的代价

本文研究学习分类器的公平性约束问题并提出了三种解决方案，分别是将两个现有的公平性度量关联到成本敏感风险，显示了对于成本敏感分类和公平性度量的最优分类器是类概率函数的实例相关阈值，并展示了准确性和公平性之间的权衡是通过目标和敏感特征的类概率之间的一致性来确定的。支撑我们分析的是一个通用框架，将具有公平要求的学习问题建模为两种统计风险差异的最小化问题。

May, 2017

公平回归的差分私有后处理

该研究提出了一种差分隐私的后处理算法，用于学习满足统计平等的公平回归器，解决了机器学习模型在敏感数据上训练时的隐私问题和其传播历史偏见的公平问题，并提供了算法的样本复杂性和公平性保证，揭示了在直方图中选择的箱数的选择对于统计偏倚和方差之间的权衡，其中使用较少的箱数总是以错误为代价倾向于公平性。

May, 2024

学习公平表达的固有折衷

本文研究了分类问题中的公平性和准确性之间的权衡，并提供了任何公平分类器群体误差和任何（近似）公平分类器的联合误差的下限，从公平表示学习角度推广这个结果。

Jun, 2019