机器学习中识别和纠正标签偏差
本文针对注入数据偏差的理论模型,从理论和经验上研究了它对公平分类器准确性和公正性的影响,并证明了在重新加权偏差注入分布上最小化选择精心挑选的重加权损失可以恢复原始数据分布上的贝叶斯最优组感知公平分类器。通过广泛的实验,我们检查了标准公平工具包中的预处理公平分类器在训练数据注入不同程度的偏差时的公平性和准确性,并发现少量简单公平技术,如重新加权、指数梯度,在其训练数据注入欠代表性和标签偏差时也可以提供稳定的准确度和公平性保证。
Feb, 2023
提出了 FAIRLABEL 算法,用于检测和修正标签中的偏见,以减少群体间的不平等影响,同时保持高预测准确性。在合成数据集上验证 FAIRLABEL 时,显示标签修正正确率为 86.7%,而基准模型为 71.9%。在 UCI Adult、German Credit Risk 和 Compas 数据集上应用 FAIRLABEL,显示不平等影响比增加了高达 54.2%。
Nov, 2023
通过筛选最公正的实例并扩展概率阈值的置信区间,结合共同教学范式以提供更可靠的选择,有效地减轻偏见标签带来的不良影响,我们的方法证明在促进公平和减少机器学习模型中标签偏见方面的有效性。
Dec, 2023
研究公平机器学习时,为达到公平,可以通过在不同群体之间平衡度量指标,并研究历史偏见对数据集的影响,然而在训练有偏倚策略的数据时,可能会导致调整后的预测器在目标人群中并不公平,从而引起剩余不公平。 使用样本重新加权来估算和调整公平度量标准,以制定出更公平的机器学习算法。
Jun, 2018
存在情况下,偏见缓解技术能够更准确的模型,在无偏数据上测量时。我们通过对偏见类型和缓解技术的效果建立关系来解决这一问题,并用理论分析来解释实验结果,并展示最小化公平度量并不一定会产生最公平的分布。
Mar, 2024
为保证公正性,公平机器学习算法致力于消除不同群体间的行为差异,但是研究表明,在训练数据存在偏差的情况下,将同等的重视不同规模和分布的不同群体,可能会与鲁棒性相冲突,攻击者可以通过对样本和标签的控制来攻击群体公平性机器学习,从而在测试数据上显著降低测试准确率,本文评估了多种算法和基准数据集的攻击,分析了公平机器学习的鲁棒性。
Jun, 2020
通过实证方法,我们评估了六种标签噪音修正方法在多个公正度度量标准上的表现,结果表明混合标签噪音修正方法在预测性能和公正度之间取得了最佳平衡,而基于聚类的修正方法可以最大程度地减少歧视但降低了预测性能。
Jun, 2023
本文基于分布稳定性的新概念,对样本选择偏差校正进行了理论分析,研究了两种估计技术:基于簇的估计技术和核均值匹配,以及使用这些技术对几个数据集进行样本偏差校正实验。
May, 2008
考虑机器学习分类器对不同民族、群体的不公平对待问题,本文提出了公正约束的多种方式,以及带有偏见的训练数据对分类器性能的影响,并探讨了如何利用公正约束的 Empirical Risk Minimization 算法来调整分类器以达到公平与精确度的平衡。具体而言,在选择 Equal Opportunity 以及使用 ERM 算法时能够达到 Bayes Optimal Classifier。
Dec, 2019
提出了一种新的数据集修复程序,将偏差最小化建立在给定特征表示的分类器上,通过交替更新分类器参数和数据集重采样权重,使用随机梯度下降解决最小最大问题。实验结果表明,该算法可以显著降低数据集的表征偏差,并提高在其上训练的模型的泛化能力。
Apr, 2019