公平分类:纠正样本差异和交叉偏见
本文针对注入数据偏差的理论模型,从理论和经验上研究了它对公平分类器准确性和公正性的影响,并证明了在重新加权偏差注入分布上最小化选择精心挑选的重加权损失可以恢复原始数据分布上的贝叶斯最优组感知公平分类器。通过广泛的实验,我们检查了标准公平工具包中的预处理公平分类器在训练数据注入不同程度的偏差时的公平性和准确性,并发现少量简单公平技术,如重新加权、指数梯度,在其训练数据注入欠代表性和标签偏差时也可以提供稳定的准确度和公平性保证。
Feb, 2023
本篇研究旨在提出一种新算法,用于学习公平的表征,以在分类环境下同时缓解不同人口统计特征子组之间的两种不平等概念。通过平衡误差率和条件对齐的表征等两个关键组件,它对确保跨组别的准确平等性和平衡假阳性和假阴性率发挥了作用。此外,我们还通过理论和两个实际实验证明,与现有的学习公平表征的算法相比,在平衡数据集上提出的算法可以在保持效用公平性的前提下得到更好的公平性。
Oct, 2019
本文提出了一种数学公式来证明数据集中的偏见对分类器的影响,通过无需改变标签来重新计算数据点的值,从而得到一个无偏分类器,这种方法可以在各种机器学习算法中使用,并实现了公平分类的目标。
Jan, 2019
通过阈值为基础的最优公平分类器的特征,本文给出了 Blum & Stangl (2019) 结果的另一证明,并证明了其对于偏倚参数的条件既是必要的又是充分的。此外,我们还证明了对于任意数据分布,只要优化准确分类器在假设类别中是公平和稳健的,那么在偏倚分布上进行公平分类就可以恢复该分类器,前提是偏倚参数满足一定的简单条件。
Dec, 2023
本文提出了一种新的框架 ——α 交叉公平(Intersectional Fairness)框架,来解决交叉敏感群体的分类问题,提出了一种新的公平度量,并在实验中验证了该框架的有效性以及一些算法的有效性。
May, 2023
通过对抗再加权方法来解决机器学习中的表征偏差,平衡数据分布以减少对少数群体的不公正对待,从而提高分类准确性和公平性。
Nov, 2023
该论文介绍了一种特定的数据增强方法,旨在增强分类任务中的交叉公平性。这种方法利用交叉性内在的层级结构,将群体视为其父类别的交集,通过学习组合父类群体数据的转换函数,对较小群体进行数据增强。我们对四个不同数据集进行的实证分析(包括文本和图像)表明,使用这种数据增强方法训练的分类器在交叉公平性方面表现优秀,并且在与优化传统群体公平度量方法相比时更具鲁棒性。
May, 2024
考虑机器学习分类器对不同民族、群体的不公平对待问题,本文提出了公正约束的多种方式,以及带有偏见的训练数据对分类器性能的影响,并探讨了如何利用公正约束的 Empirical Risk Minimization 算法来调整分类器以达到公平与精确度的平衡。具体而言,在选择 Equal Opportunity 以及使用 ERM 算法时能够达到 Bayes Optimal Classifier。
Dec, 2019
研究了在训练标签被随机噪声污染和误差率依赖于保护子组的成员函数的情况下如何训练公平分类器,发现简单地强制使用人口统计差异措施达到平等,会降低分类器的准确性和公平性。通过使用指定的替代损失函数和替代约束条件对经验风险最小化进行优化可以减少标签噪声引起的问题。
Oct, 2020
通过采用分布式鲁棒优化的方法,我们可以在不考虑特定群体身份的情况下控制少数群体的风险水平,从而避免了现有的经验风险最小化方法在时间推移中导致的表征偏差加剧。在一个真实的文本自动完成任务中,这种方法提高了少数群体用户的满意度。
Jun, 2018