公平分类：纠正样本差异和交叉偏见

Jun, 2023

公平分类：纠正样本差异和交叉偏见

Correcting Underrepresentation and Intersectional Bias for Fair Classification

Alexander Williams Tolbert, Emily Diana

TL;DR研究了在存在样本筛选偏差的情况下，通过一种小样本无偏估计方法和重新加权方案，来有效评估基于真实分布的假设的风险，以及解决交叉组成员计算困难的问题。

Abstract

We consider the problem of learning from data corrupted by underrepresentation bias, where positive examples are filtered from the data at different, unknown rates for a fixed number of sensitive groups. We show that with a small amount of unbiased data, we can efficiently estimate the

underrepresentation bias drop-out rate estimation re-weighting scheme pac-style guarantees empirical error

发现论文，激发创造

关于在数据偏差下测试和比较公平分类器

本文针对注入数据偏差的理论模型，从理论和经验上研究了它对公平分类器准确性和公正性的影响，并证明了在重新加权偏差注入分布上最小化选择精心挑选的重加权损失可以恢复原始数据分布上的贝叶斯最优组感知公平分类器。通过广泛的实验，我们检查了标准公平工具包中的预处理公平分类器在训练数据注入不同程度的偏差时的公平性和准确性，并发现少量简单公平技术，如重新加权、指数梯度，在其训练数据注入欠代表性和标签偏差时也可以提供稳定的准确度和公平性保证。

Feb, 2023

有条件的公平表达学习

本篇研究旨在提出一种新算法，用于学习公平的表征，以在分类环境下同时缓解不同人口统计特征子组之间的两种不平等概念。通过平衡误差率和条件对齐的表征等两个关键组件，它对确保跨组别的准确平等性和平衡假阳性和假阴性率发挥了作用。此外，我们还通过理论和两个实际实验证明，与现有的学习公平表征的算法相比，在平衡数据集上提出的算法可以在保持效用公平性的前提下得到更好的公平性。

Oct, 2019

机器学习中识别和纠正标签偏差

本文提出了一种数学公式来证明数据集中的偏见对分类器的影响，通过无需改变标签来重新计算数据点的值，从而得到一个无偏分类器，这种方法可以在各种机器学习算法中使用，并实现了公平分类的目标。

Jan, 2019

公平约束对偏见数据恢复的辅助程度有多大？

通过阈值为基础的最优公平分类器的特征，本文给出了 Blum & Stangl (2019) 结果的另一证明，并证明了其对于偏倚参数的条件既是必要的又是充分的。此外，我们还证明了对于任意数据分布，只要优化准确分类器在假设类别中是公平和稳健的，那么在偏倚分布上进行公平分类就可以恢复该分类器，前提是偏倚参数满足一定的简单条件。

Dec, 2023

如何捕捉交叉公平性

本文提出了一种新的框架 ——α 交叉公平（Intersectional Fairness）框架，来解决交叉敏感群体的分类问题，提出了一种新的公平度量，并在实验中验证了该框架的有效性以及一些算法的有效性。

May, 2023

以 Wasserstein 距离为指导的对抗性权重调整用于偏见缓解

通过对抗再加权方法来解决机器学习中的表征偏差，平衡数据分布以减少对少数群体的不公正对待，从而提高分类准确性和公平性。

Nov, 2023

利用分层群组结构实现交叉公平的合成数据生成

该论文介绍了一种特定的数据增强方法，旨在增强分类任务中的交叉公平性。这种方法利用交叉性内在的层级结构，将群体视为其父类别的交集，通过学习组合父类群体数据的转换函数，对较小群体进行数据增强。我们对四个不同数据集进行的实证分析（包括文本和图像）表明，使用这种数据增强方法训练的分类器在交叉公平性方面表现优秀，并且在与优化传统群体公平度量方法相比时更具鲁棒性。

May, 2024

如何恢复有偏数据：公平约束是否能提高准确性？

考虑机器学习分类器对不同民族、群体的不公平对待问题，本文提出了公正约束的多种方式，以及带有偏见的训练数据对分类器性能的影响，并探讨了如何利用公正约束的 Empirical Risk Minimization 算法来调整分类器以达到公平与精确度的平衡。具体而言，在选择 Equal Opportunity 以及使用 ERM 算法时能够达到 Bayes Optimal Classifier。

Dec, 2019

依赖于组的标签噪声下的公平分类

研究了在训练标签被随机噪声污染和误差率依赖于保护子组的成员函数的情况下如何训练公平分类器，发现简单地强制使用人口统计差异措施达到平等，会降低分类器的准确性和公平性。通过使用指定的替代损失函数和替代约束条件对经验风险最小化进行优化可以减少标签噪声引起的问题。

Oct, 2020

基于重复损失最小化的公平性无需人口统计信息

通过采用分布式鲁棒优化的方法，我们可以在不考虑特定群体身份的情况下控制少数群体的风险水平，从而避免了现有的经验风险最小化方法在时间推移中导致的表征偏差加剧。在一个真实的文本自动完成任务中，这种方法提高了少数群体用户的满意度。

Jun, 2018