机器学习中识别和纠正标签偏差

Jan, 2019

Identifying and Correcting Label Bias in Machine Learning

Heinrich Jiang, Ofir Nachum

TL;DR本文提出了一种数学公式来证明数据集中的偏见对分类器的影响，通过无需改变标签来重新计算数据点的值，从而得到一个无偏分类器，这种方法可以在各种机器学习算法中使用，并实现了公平分类的目标。

Abstract

Datasets often contain biases which unfairly disadvantage certain groups, and classifiers trained on such datasets can inherit these biases. In this paper, we provide a mathematical formulation of how this bias c

biases fairness machine learning data re-weighting unbiased labels

发现论文，激发创造

关于在数据偏差下测试和比较公平分类器

本文针对注入数据偏差的理论模型，从理论和经验上研究了它对公平分类器准确性和公正性的影响，并证明了在重新加权偏差注入分布上最小化选择精心挑选的重加权损失可以恢复原始数据分布上的贝叶斯最优组感知公平分类器。通过广泛的实验，我们检查了标准公平工具包中的预处理公平分类器在训练数据注入不同程度的偏差时的公平性和准确性，并发现少量简单公平技术，如重新加权、指数梯度，在其训练数据注入欠代表性和标签偏差时也可以提供稳定的准确度和公平性保证。

Feb, 2023

FAIRLABEL：修正标签偏差

提出了 FAIRLABEL 算法，用于检测和修正标签中的偏见，以减少群体间的不平等影响，同时保持高预测准确性。在合成数据集上验证 FAIRLABEL 时，显示标签修正正确率为 86.7％，而基准模型为 71.9％。在 UCI Adult、German Credit Risk 和 Compas 数据集上应用 FAIRLABEL，显示不平等影响比增加了高达 54.2％。

Nov, 2023

机器学习中缓解标签偏差：自信学习实现公平

通过筛选最公正的实例并扩展概率阈值的置信区间，结合共同教学范式以提供更可靠的选择，有效地减轻偏见标签带来的不良影响，我们的方法证明在促进公平和减少机器学习模型中标签偏见方面的有效性。

Dec, 2023

来自带偏见数据的公平机器学习中的残留不公平

研究公平机器学习时，为达到公平，可以通过在不同群体之间平衡度量指标，并研究历史偏见对数据集的影响，然而在训练有偏倚策略的数据时，可能会导致调整后的预测器在目标人群中并不公平，从而引起剩余不公平。使用样本重新加权来估算和调整公平度量标准，以制定出更公平的机器学习算法。

Jun, 2018

如何做到公平？对标签和选择偏差的研究

存在情况下，偏见缓解技术能够更准确的模型，在无偏数据上测量时。我们通过对偏见类型和缓解技术的效果建立关系来解决这一问题，并用理论分析来解释实验结果，并展示最小化公平度量并不一定会产生最公平的分布。

Mar, 2024

关于对抗偏差和公正机器学习的鲁棒性

为保证公正性，公平机器学习算法致力于消除不同群体间的行为差异，但是研究表明，在训练数据存在偏差的情况下，将同等的重视不同规模和分布的不同群体，可能会与鲁棒性相冲突，攻击者可以通过对样本和标签的控制来攻击群体公平性机器学习，从而在测试数据上显著降低测试准确率，本文评估了多种算法和基准数据集的攻击，分析了公平机器学习的鲁棒性。

Jun, 2020

标签噪音校正对机器学习公正性影响的系统分析

通过实证方法，我们评估了六种标签噪音修正方法在多个公正度度量标准上的表现，结果表明混合标签噪音修正方法在预测性能和公正度之间取得了最佳平衡，而基于聚类的修正方法可以最大程度地减少歧视但降低了预测性能。

Jun, 2023

样本选择偏差校正理论

本文基于分布稳定性的新概念，对样本选择偏差校正进行了理论分析，研究了两种估计技术：基于簇的估计技术和核均值匹配，以及使用这些技术对几个数据集进行样本偏差校正实验。

May, 2008

如何恢复有偏数据：公平约束是否能提高准确性？

考虑机器学习分类器对不同民族、群体的不公平对待问题，本文提出了公正约束的多种方式，以及带有偏见的训练数据对分类器性能的影响，并探讨了如何利用公正约束的 Empirical Risk Minimization 算法来调整分类器以达到公平与精确度的平衡。具体而言，在选择 Equal Opportunity 以及使用 ERM 算法时能够达到 Bayes Optimal Classifier。

Dec, 2019

通过数据集重采样消除表示偏差 (REPAIR)

提出了一种新的数据集修复程序，将偏差最小化建立在给定特征表示的分类器上，通过交替更新分类器参数和数据集重采样权重，使用随机梯度下降解决最小最大问题。实验结果表明，该算法可以显著降低数据集的表征偏差，并提高在其上训练的模型的泛化能力。

Apr, 2019