信任公平数据：利用质量优化公平导向的数据去除技术

May, 2024

信任公平数据：利用质量优化公平导向的数据去除技术

Trusting Fair Data: Leveraging Quality in Fairness-Driven Data Removal Techniques

Manh Khoi Duong, Stefan Conrad

TL;DR通过引入多目标优化问题来平衡公平性和数据质量，我们提出了一种找到帕累托最优解的方法，以消除偏见缓解技术对数据集的剔除特定数据点所带来的信任问题，并保证子集对整体人群的公平性、组覆盖率和最小数据损失。

Abstract

In this paper, we deal with bias mitigation techniques that remove specific data points from the training set to aim for a fair representation of the population in that set. Machine learning models are trained on these pre-processed datasets, and their predictions are expected to be fa

bias mitigation techniques fairness group coverage minimal data loss multi-objective optimization

发现论文，激发创造

如何做到公平？对标签和选择偏差的研究

存在情况下，偏见缓解技术能够更准确的模型，在无偏数据上测量时。我们通过对偏见类型和缓解技术的效果建立关系来解决这一问题，并用理论分析来解释实验结果，并展示最小化公平度量并不一定会产生最公平的分布。

Mar, 2024

提升机器学习模型的公平性与性能：一种采用蒙特卡洛辍学和帕累托优化的多任务学习方法

本文考虑了机器学习中可推广的偏见缓解技术的需求，由于对公平性和歧视的担忧，这些技术在数据驱动的决策过程中得到了各个行业的应用。尽管许多现有的机器学习偏见缓解方法在特定情况下取得了成功，但它们常常缺乏可推广性，不能轻松地应用于不同的数据类型或模型。此外，准确性与公平性之间的权衡仍然是该领域的一种根本张力。为了解决这些问题，我们提出了一种基于多任务学习的偏见缓解方法，利用了多目标优化中的 Monte-Carlo dropout 和 Pareto 优势的概念。该方法在不使用敏感信息的情况下同时优化准确性和公平性，提高了模型的可解释性。我们在来自不同领域的三个数据集上测试了这种方法，并展示了它如何提供模型公平性和性能之间的最理想权衡。这使得我们能够在特定领域进行调优，其中一个指标可能比另一个更重要。通过我们在本文中介绍的框架，我们旨在增强公平性和性能之间的权衡，并为机器学习中偏见缓解方法的可推广性问题提供一个解决方案。

Apr, 2024

AIM：归因、解释、减轻数据不公平

数据收集中的历史性歧视对弱势群体和个体产生了影响。现有的公平机器学习研究主要致力于减轻模型预测中的歧视倾向，但对于如何追踪数据中存在的偏见却付出了较少的努力，尽管这对公平机器学习的透明度和可解释性非常重要。为了填补这一空白，我们研究了一个新的问题：发现在训练数据中反映偏见 / 偏见的样本。基于现有的公平性概念，我们提出了一个样本偏见准则，并提出了衡量和抵消样本偏见的实用算法。得出的偏见分数提供了历史偏见在数据中的直观样本级归因和说明。在此基础上，我们通过基于样本偏见的最小数据编辑设计了两种公平机器学习策略。它们可以在最小或零的预测效用损失的情况下，减轻群体和个体的不公平现象。对多个真实世界数据集的大量实验和分析证明了我们方法在解释和减轻不公平方面的有效性。代码可在此 URL 获取：https://URL

Jun, 2024

算法公平性隐私风险

研究算法公平性和隐私在机器学习中的应用，分析了公平性对训练数据信息泄露的影响，发现公平性会牺牲一部分隐私权，特别是对弱势群体。同时，训练数据的偏差越大，为了弱势群体的公平性所付出的隐私成本也越高。

Nov, 2020

模型训练中优化平等机会公平性

本研究提出了两种新的训练目标，直接优化了广泛使用的平等机会标准，并证明它们在两个分类任务中减少偏见的同时保持高性能。

May, 2022

公平感知机器学习的两阶段算法

论文提出了一种基于两阶段最小二乘法的公平机器学习算法，能够有效处理数据中敏感属性与非敏感属性相关的不公平问题，其独特之处在于该算法针对回归模型的不公平问题也能做出有效处理，并且能够解决数字敏感属性的问题，经实验验证表现卓越。

Oct, 2017

移除偏见数据以提高公平性和准确性

提出了一种黑盒子方法，用于识别和消除具有偏见的训练数据，以减少机器学习所带来的偏见，此方法在实验中显示出比之前的方法更佳的个体歧视和准确性表现。

Feb, 2021

健康数据饮食上的深度学习：发现对公平性重要的示例

本文提出使用数据增强方法减少自然语言处理中的性别偏见，并通过削减数据集中的例子提高模型的公平性，实验证明该方法在三个文本分类数据集上所实现的公平性优于数据增强方法。

Nov, 2022

机器学习的准确性和公平性权衡：基于随机多目标方法的研究

本文介绍了一种新的处理公平性的方法，通过建立一个随机多目标优化问题，得到一组准确且平衡的 Pareto 前沿，以此权衡准确度和公平性，以更高效地处理大量的流数据。

Aug, 2020

如何恢复有偏数据：公平约束是否能提高准确性？

考虑机器学习分类器对不同民族、群体的不公平对待问题，本文提出了公正约束的多种方式，以及带有偏见的训练数据对分类器性能的影响，并探讨了如何利用公正约束的 Empirical Risk Minimization 算法来调整分类器以达到公平与精确度的平衡。具体而言，在选择 Equal Opportunity 以及使用 ERM 算法时能够达到 Bayes Optimal Classifier。

Dec, 2019