有界种族差异的极小极大公平分类
该论文研究了机器学习中的公平性问题,提出了在保持公平的前提下如何提高预测模型性能的方法,并且证明了最小误差率可以通过 Wasserstein 平均问题的最优值来计算,从而提出了一种简单的后处理方法来保证模型的公平性。
Nov, 2022
机器学习算法在受保护群体上可能存在不公平影响。为解决此问题,我们开发了贝叶斯最优公平分类的方法,旨在在给定的群体公平约束条件下最小化分类错误。我们介绍了线性差异度量的概念,这些度量是概率分类器的线性函数;以及双线性差异度量,这些度量也是群体回归函数的线性函数。我们证明了几种流行的差异度量 - 从人口统计平衡、机会平等到预测平等的偏离 - 都是双线性的。我们通过在单一线性差异度量下揭示与 Neyman-Pearson 引理的联系,找到了贝叶斯最优公平分类器的形式。对于双线性差异度量,贝叶斯最优公平分类器变为群体阈值规则。我们的方法还可以处理多个公平性约束(如均衡的几率)以及在预测阶段无法使用受保护属性的常见情况。借助我们的理论结果,我们设计了在双线性差异约束下学习公平贝叶斯最优分类器的方法。我们的方法涵盖了三种流行的公平感知分类方法,包括预处理(公平上采样和下采样),进行中处理(公平成本敏感分类)和后处理(公平插件规则)。我们的方法在实现直接控制差异的同时,实现了接近最优的公平性和准确性权衡。实验证明,我们的方法比现有算法更可取。
Feb, 2024
在本研究中,我们调查了在差分隐私和公平性的约束下的二元分类问题。我们首先提出了一种基于解耦技术的算法,用于学习一个只保证公平性的分类器。该算法接受在不同人口群体上训练的分类器,并生成一个满足统计平衡的单个分类器。然后,我们改进了该算法以加入差分隐私。在隐私、公平性和效用保证方面,对最终算法的性能进行了严格的检验。在 Adult 和 Credit Card 数据集上进行的实证评估显示,我们的算法在公平性保证方面优于现有技术,同时保持相同水平的隐私和效用。
Feb, 2024
通过提出一种称为最大累积比不平等的新公平度量指标(MCDP)来衡量算法的最大局部不平等,提供比传统公平度量更准确和高效的计算方法,并通过不可导逼近的 MCDP 的优化算法提高算法公平度。在基于表格和图像的数据集上进行的广泛实验验证了我们的公平训练算法可以实现优越的公平性与准确性的权衡。
Jun, 2024
本文提出了一种新颖的 min-max F-divergence 规则框架,通过两个可训练网络(分类器网络和偏差 / 公平估计器网络),使用统计概念中的 F-divergence 度量公平性,学习公平的分类模型,同时保持高准确率,可适用于多个敏感属性和高维数据集。该框架针对两种群体公平性限制进行 F-divergence 规则模式的研究,进行了一系列实验,结果显示该框架在准确性和公平性之间的平衡方面实现了最先进的性能。
Jun, 2023
通过采用分布式鲁棒优化的方法,我们可以在不考虑特定群体身份的情况下控制少数群体的风险水平,从而避免了现有的经验风险最小化方法在时间推移中导致的表征偏差加剧。在一个真实的文本自动完成任务中,这种方法提高了少数群体用户的满意度。
Jun, 2018
本文提出了一种用于多类分类的算法公平性方法,同时给出了最佳公平分类器的相关表达式,该方法基于数据驱动的程序并且有理论保证。该方法在合成和真实数据集上都很有效,在决策制定中具有预设不公平性水平的公平性保证(无需考虑分布),并竞争(即使更好)地完成二元和多类任务。
Sep, 2021
通过对 9 种方法公平指标改进的性能进行基准测试,我们发现,相对于实现群体公平的方法,实现最差群体表现的方法并不能胜任在临床设置中对分类器公平进行改进,这一结果证实了对于在数据生成功能机制中存在歧视的机理的调查在临床环境中仍然具有实用性。
Mar, 2022
在处理敏感信息的应用程序中,数据限制可能会对机器学习(ML)分类器的可用数据施加限制,本文提出了一个框架,模拟了在四种实际情景下准确性和公平性之间的折衷,以确定在各种数据限制情况下,贝叶斯分类器的准确性受到的影响是如何的。
Mar, 2024
通过将与预测相关的分布属性纳入考虑,我们扩展了人口平等的概念,允许专家知识在公平解决方案中得到应用,并通过一个工资的实际案例说明了此新度量的使用,同时开发了解决实际挑战的参数方法,提供了一个适用于现实生活中应用场景的强大解决方案。
Oct, 2023