在相关性转移下改进公平训练

Feb, 2023

Improving Fair Training under Correlation Shifts

Yuji Roh, Kangwook Lee, Steven Euijong Whang, Changho Suh

TL;DR本文提出了一种解决模型公平性中的相关性变化问题的新颖方法，即引入相关性偏移的概念和采用预处理步骤以减少相关性偏移，并借此通过优化问题来调整数据比率，从而使得数据处理算法可以有效地提高其准确性和公平性。

Abstract

model fairness is an essential element for trustworthy ai. While many techniques for model fairness have been proposed, most of them assum

model fairness trustworthy ai correlation shifts in-processing fair algorithms pre-processing step

发现论文，激发创造

协变量漂移下的稳健公平性

通过考虑协变量变化，提出了一种对于未知数据能够保持公正与性能的预测模型的方法。

Oct, 2020

分布转移下的监督算法公平性：一项综述

监督的公平感知机器学习在面临数据分布从源领域到目标领域的变化时，是一个新兴的领域，解决了在实现公正和无偏预测方面的挑战。本综述提供各种类型的分布变化的总结，并全面调查了现有方法，重点介绍了文献中常用的六种方法。此外，本综述列出了可用于经验研究的公开数据集和评估指标。我们进一步探讨了与相关研究领域的相互连接，讨论了重大挑战，并确定了未来研究的潜在方向。

Feb, 2024

即使是微小的相关性和多样性变化也会导致数据集偏差问题

本文针对分布转移对深度学习模型性能和可靠性的影响，研究了两种类型的分布转移：多样性转移和相关性转移，并提出了一种综合协议来分析这两种转移。应用我们的方法到一个真实的皮肤癌分类问题，最终有三个发现：模型在低偏差情况下仍学习和传播与转移相关的内容；模型学习了强健的特征但仍使用其他的特征；多样性转移可以降低偏差模型对于与转移相关的特征的依赖性。

May, 2023

在协变量偏移下，在少量测试样本的情况下改善公平性和准确性的权衡

在测试数据中的协变量偏移可以显著降低模型的准确性和公平性表现。我们提出了一种基于加权熵的预测准确性目标和表示匹配损失的新型组合目标函数，通过实验证明了我们的损失函数优化在公平性与准确性的权衡上优于其他基线方法。我们还提出了一种称为不对称协变量偏移的新颖设置，并展示了我们的方法在这种设置下的显著优势。最后，我们理论上证明了在训练集上的加权熵项和预测损失可以近似于协变量偏移时的测试损失。我们通过实验证明了这种对未见测试损失的近似不依赖于影响其他基线方法的重要性采样方差。

Oct, 2023

FairRR：通过随机响应进行群体公平的预处理

在机器学习模型在决策过程中的不断增加使用中，研究这些系统的公平性已经在不断推进。尽管在入处理和后处理设置中已经进行了大量工作来研究群体公平性，但在预处理领域，这些结果与理论上的联系还很少。本文将在随机响应框架中的响应变量修改下进行下游模型的群体公平性作为一个优化设计矩阵的问题提出。我们展示了群体公平性的度量可以通过最优模型效用进行直接控制，并提出了一个称为 FairRR 的预处理算法，它可以产生出色的下游模型效用和公平性。

Mar, 2024

算法公平性隐私风险

研究算法公平性和隐私在机器学习中的应用，分析了公平性对训练数据信息泄露的影响，发现公平性会牺牲一部分隐私权，特别是对弱势群体。同时，训练数据的偏差越大，为了弱势群体的公平性所付出的隐私成本也越高。

Nov, 2020

使用敏感子空间鲁棒性训练个体公平的机器学习模型

我们考虑培训机器学习模型，使其在输入的某些敏感扰动下表现不变的公平性，这种公平性的形式化表述为个体公平性的一种变体，并使用分布鲁棒优化方法在训练期间强制执行。我们还展示了该方法在两个容易受到性别和种族偏见影响的机器学习任务上的有效性。

Jun, 2019

关于在数据偏差下测试和比较公平分类器

本文针对注入数据偏差的理论模型，从理论和经验上研究了它对公平分类器准确性和公正性的影响，并证明了在重新加权偏差注入分布上最小化选择精心挑选的重加权损失可以恢复原始数据分布上的贝叶斯最优组感知公平分类器。通过广泛的实验，我们检查了标准公平工具包中的预处理公平分类器在训练数据注入不同程度的偏差时的公平性和准确性，并发现少量简单公平技术，如重新加权、指数梯度，在其训练数据注入欠代表性和标签偏差时也可以提供稳定的准确度和公平性保证。

Feb, 2023

公平映射

为了解决模型中存在的错误偏见，本研究提出了一种新的预处理方法 - 公平映射，通过转换敏感组的数据分布到一个特定的目标分布上，并且实现保护敏感属性不被推论的目标来改善数据的公平性。实验结果表明，该方法能够同时隐蔽敏感属性，不失数据的特性，同时提高了后续数据分析任务的公平性。

Sep, 2022

无需公平训练的公平分类器：一种受影响引导的数据采样方法

学习公平分类器的方法是避免使用敏感属性的训练数据，在适当分布转移的数据集上进行传统训练可以同时减少公平差距上界和模型泛化误差，提高公平性和准确性。我们提出了一种可行的解决方案，通过采样有影响力的数据来在训练过程中逐步转移原始训练数据，其中新数据的敏感属性不会被访问或用于训练。对真实数据的大量实验验证了我们提出算法的有效性。

Feb, 2024