如何恢复有偏数据:公平约束是否能提高准确性?
通过阈值为基础的最优公平分类器的特征,本文给出了 Blum & Stangl (2019) 结果的另一证明,并证明了其对于偏倚参数的条件既是必要的又是充分的。此外,我们还证明了对于任意数据分布,只要优化准确分类器在假设类别中是公平和稳健的,那么在偏倚分布上进行公平分类就可以恢复该分类器,前提是偏倚参数满足一定的简单条件。
Dec, 2023
介绍了一种基于经验风险最小化的算法,通过将公平性约束条件融入到学习问题中,实现敏感变量不会不公平地影响分类器的结果,得出了公平性和风险的界限,对核方法进行了特定说明,发现公平性要求意味着正交性约束,此约束可轻松添加到这些方法中,特别是对于线性模型,约束转化为一个简单的数据预处理步骤,实验证明该算法具有实用性,表现优于最先进的方法。
Feb, 2018
为保证公正性,公平机器学习算法致力于消除不同群体间的行为差异,但是研究表明,在训练数据存在偏差的情况下,将同等的重视不同规模和分布的不同群体,可能会与鲁棒性相冲突,攻击者可以通过对样本和标签的控制来攻击群体公平性机器学习,从而在测试数据上显著降低测试准确率,本文评估了多种算法和基准数据集的攻击,分析了公平机器学习的鲁棒性。
Jun, 2020
本文针对注入数据偏差的理论模型,从理论和经验上研究了它对公平分类器准确性和公正性的影响,并证明了在重新加权偏差注入分布上最小化选择精心挑选的重加权损失可以恢复原始数据分布上的贝叶斯最优组感知公平分类器。通过广泛的实验,我们检查了标准公平工具包中的预处理公平分类器在训练数据注入不同程度的偏差时的公平性和准确性,并发现少量简单公平技术,如重新加权、指数梯度,在其训练数据注入欠代表性和标签偏差时也可以提供稳定的准确度和公平性保证。
Feb, 2023
在处理敏感信息的应用程序中,数据限制可能会对机器学习(ML)分类器的可用数据施加限制,本文提出了一个框架,模拟了在四种实际情景下准确性和公平性之间的折衷,以确定在各种数据限制情况下,贝叶斯分类器的准确性受到的影响是如何的。
Mar, 2024
介绍了一种名为 Welfare-Equalizing 的公平算法,旨在保护受保护群体。该方法提供了一种公平性数据分类的统一框架,以及一种计算最优分类器的算法。
May, 2019
通过采用分布式鲁棒优化的方法,我们可以在不考虑特定群体身份的情况下控制少数群体的风险水平,从而避免了现有的经验风险最小化方法在时间推移中导致的表征偏差加剧。在一个真实的文本自动完成任务中,这种方法提高了少数群体用户的满意度。
Jun, 2018
机器学习在执法、刑事司法、金融、招聘和招生等领域的日益广泛应用,确保机器学习辅助决策的公平性变得越来越关键。本文以统计学的 “平等机会” 概念为基础,研究了公平性和准确性之间的折衷。我们提出了一个新的准确性上限(适用于任何分类器),并将其作为公平预算的函数。此外,我们的上限还与数据、标签和敏感群体属性的底层统计学关系密切相关。通过对三个真实世界数据集(COMPAS、成年人和法学院)进行经验分析,我们验证了我们理论上限的有效性。具体而言,我们将我们的上限与文献中各种现有公平分类器所实现的折衷情况进行了比较。我们的结果表明,在统计差异存在的情况下,实现高准确性条件下的低偏差可能从根本上受到限制。
May, 2024