在相关性转移下改进公平训练
监督的公平感知机器学习在面临数据分布从源领域到目标领域的变化时,是一个新兴的领域,解决了在实现公正和无偏预测方面的挑战。本综述提供各种类型的分布变化的总结,并全面调查了现有方法,重点介绍了文献中常用的六种方法。此外,本综述列出了可用于经验研究的公开数据集和评估指标。我们进一步探讨了与相关研究领域的相互连接,讨论了重大挑战,并确定了未来研究的潜在方向。
Feb, 2024
本文针对分布转移对深度学习模型性能和可靠性的影响,研究了两种类型的分布转移:多样性转移和相关性转移,并提出了一种综合协议来分析这两种转移。应用我们的方法到一个真实的皮肤癌分类问题,最终有三个发现:模型在低偏差情况下仍学习和传播与转移相关的内容;模型学习了强健的特征但仍使用其他的特征;多样性转移可以降低偏差模型对于与转移相关的特征的依赖性。
May, 2023
在测试数据中的协变量偏移可以显著降低模型的准确性和公平性表现。我们提出了一种基于加权熵的预测准确性目标和表示匹配损失的新型组合目标函数,通过实验证明了我们的损失函数优化在公平性与准确性的权衡上优于其他基线方法。我们还提出了一种称为不对称协变量偏移的新颖设置,并展示了我们的方法在这种设置下的显著优势。最后,我们理论上证明了在训练集上的加权熵项和预测损失可以近似于协变量偏移时的测试损失。我们通过实验证明了这种对未见测试损失的近似不依赖于影响其他基线方法的重要性采样方差。
Oct, 2023
在机器学习模型在决策过程中的不断增加使用中,研究这些系统的公平性已经在不断推进。尽管在入处理和后处理设置中已经进行了大量工作来研究群体公平性,但在预处理领域,这些结果与理论上的联系还很少。本文将在随机响应框架中的响应变量修改下进行下游模型的群体公平性作为一个优化设计矩阵的问题提出。我们展示了群体公平性的度量可以通过最优模型效用进行直接控制,并提出了一个称为 FairRR 的预处理算法,它可以产生出色的下游模型效用和公平性。
Mar, 2024
研究算法公平性和隐私在机器学习中的应用,分析了公平性对训练数据信息泄露的影响,发现公平性会牺牲一部分隐私权,特别是对弱势群体。同时,训练数据的偏差越大,为了弱势群体的公平性所付出的隐私成本也越高。
Nov, 2020
我们考虑培训机器学习模型,使其在输入的某些敏感扰动下表现不变的公平性,这种公平性的形式化表述为个体公平性的一种变体,并使用分布鲁棒优化方法在训练期间强制执行。我们还展示了该方法在两个容易受到性别和种族偏见影响的机器学习任务上的有效性。
Jun, 2019
本文针对注入数据偏差的理论模型,从理论和经验上研究了它对公平分类器准确性和公正性的影响,并证明了在重新加权偏差注入分布上最小化选择精心挑选的重加权损失可以恢复原始数据分布上的贝叶斯最优组感知公平分类器。通过广泛的实验,我们检查了标准公平工具包中的预处理公平分类器在训练数据注入不同程度的偏差时的公平性和准确性,并发现少量简单公平技术,如重新加权、指数梯度,在其训练数据注入欠代表性和标签偏差时也可以提供稳定的准确度和公平性保证。
Feb, 2023
为了解决模型中存在的错误偏见,本研究提出了一种新的预处理方法 - 公平映射,通过转换敏感组的数据分布到一个特定的目标分布上,并且实现保护敏感属性不被推论的目标来改善数据的公平性。实验结果表明,该方法能够同时隐蔽敏感属性,不失数据的特性,同时提高了后续数据分析任务的公平性。
Sep, 2022
学习公平分类器的方法是避免使用敏感属性的训练数据,在适当分布转移的数据集上进行传统训练可以同时减少公平差距上界和模型泛化误差,提高公平性和准确性。我们提出了一种可行的解决方案,通过采样有影响力的数据来在训练过程中逐步转移原始训练数据,其中新数据的敏感属性不会被访问或用于训练。对真实数据的大量实验验证了我们提出算法的有效性。
Feb, 2024