如何恢复有偏数据：公平约束是否能提高准确性？

Dec, 2019

如何恢复有偏数据：公平约束是否能提高准确性？

Recovering from Biased Data: Can Fairness Constraints Improve Accuracy?

Avrim Blum, Kevin Stangl

TL;DR考虑机器学习分类器对不同民族、群体的不公平对待问题，本文提出了公正约束的多种方式，以及带有偏见的训练数据对分类器性能的影响，并探讨了如何利用公正约束的 Empirical Risk Minimization 算法来调整分类器以达到公平与精确度的平衡。具体而言，在选择 Equal Opportunity 以及使用 ERM 算法时能够达到 Bayes Optimal Classifier。

Abstract

Multiple fairness constraints have been proposed in the literature, motivated by a range of concerns about how demographic groups might be treated unfairly by machine learning classifiers. In this work we consider a different motivation; learning from →

fairness constraints biased training data empirical risk minimization equal opportunity bayes optimal classifier

发现论文，激发创造

公平约束对偏见数据恢复的辅助程度有多大？

通过阈值为基础的最优公平分类器的特征，本文给出了 Blum & Stangl (2019) 结果的另一证明，并证明了其对于偏倚参数的条件既是必要的又是充分的。此外，我们还证明了对于任意数据分布，只要优化准确分类器在假设类别中是公平和稳健的，那么在偏倚分布上进行公平分类就可以恢复该分类器，前提是偏倚参数满足一定的简单条件。

Dec, 2023

在公平约束下的经验风险最小化

介绍了一种基于经验风险最小化的算法，通过将公平性约束条件融入到学习问题中，实现敏感变量不会不公平地影响分类器的结果，得出了公平性和风险的界限，对核方法进行了特定说明，发现公平性要求意味着正交性约束，此约束可轻松添加到这些方法中，特别是对于线性模型，约束转化为一个简单的数据预处理步骤，实验证明该算法具有实用性，表现优于最先进的方法。

Feb, 2018

关于对抗偏差和公正机器学习的鲁棒性

为保证公正性，公平机器学习算法致力于消除不同群体间的行为差异，但是研究表明，在训练数据存在偏差的情况下，将同等的重视不同规模和分布的不同群体，可能会与鲁棒性相冲突，攻击者可以通过对样本和标签的控制来攻击群体公平性机器学习，从而在测试数据上显著降低测试准确率，本文评估了多种算法和基准数据集的攻击，分析了公平机器学习的鲁棒性。

Jun, 2020

关于在数据偏差下测试和比较公平分类器

本文针对注入数据偏差的理论模型，从理论和经验上研究了它对公平分类器准确性和公正性的影响，并证明了在重新加权偏差注入分布上最小化选择精心挑选的重加权损失可以恢复原始数据分布上的贝叶斯最优组感知公平分类器。通过广泛的实验，我们检查了标准公平工具包中的预处理公平分类器在训练数据注入不同程度的偏差时的公平性和准确性，并发现少量简单公平技术，如重新加权、指数梯度，在其训练数据注入欠代表性和标签偏差时也可以提供稳定的准确度和公平性保证。

Feb, 2023

数据受限二元分类中平衡公平性与准确性

在处理敏感信息的应用程序中，数据限制可能会对机器学习（ML）分类器的可用数据施加限制，本文提出了一个框架，模拟了在四种实际情景下准确性和公平性之间的折衷，以确定在各种数据限制情况下，贝叶斯分类器的准确性受到的影响是如何的。

Mar, 2024

模型训练中优化平等机会公平性

本研究提出了两种新的训练目标，直接优化了广泛使用的平等机会标准，并证明它们在两个分类任务中减少偏见的同时保持高性能。

May, 2022

公正和校准

本论文探讨了在不同人群中最小化误差差异和维护校准概率估计之间的紧张关系，并表明校准只与单一误差约束兼容。

Sep, 2017

保护受保护群体：规避有害公平性

介绍了一种名为 Welfare-Equalizing 的公平算法，旨在保护受保护群体。该方法提供了一种公平性数据分类的统一框架，以及一种计算最优分类器的算法。

May, 2019

基于重复损失最小化的公平性无需人口统计信息

通过采用分布式鲁棒优化的方法，我们可以在不考虑特定群体身份的情况下控制少数群体的风险水平，从而避免了现有的经验风险最小化方法在时间推移中导致的表征偏差加剧。在一个真实的文本自动完成任务中，这种方法提高了少数群体用户的满意度。

Jun, 2018

公平精确性平衡下的内在公平性 - 准确性权衡

机器学习在执法、刑事司法、金融、招聘和招生等领域的日益广泛应用，确保机器学习辅助决策的公平性变得越来越关键。本文以统计学的 “平等机会” 概念为基础，研究了公平性和准确性之间的折衷。我们提出了一个新的准确性上限（适用于任何分类器），并将其作为公平预算的函数。此外，我们的上限还与数据、标签和敏感群体属性的底层统计学关系密切相关。通过对三个真实世界数据集（COMPAS、成年人和法学院）进行经验分析，我们验证了我们理论上限的有效性。具体而言，我们将我们的上限与文献中各种现有公平分类器所实现的折衷情况进行了比较。我们的结果表明，在统计差异存在的情况下，实现高准确性条件下的低偏差可能从根本上受到限制。

May, 2024