通过对抗网络逼近机器学习公平性
提出了一个框架以减少训练数据集中不公平的代表性,其中使用两个相互操作的对手功能来提高公平性。首先,通过训练模型防止猜测受保护属性的值,同时限制效用损失,实现模型公平性优化。然后,利用对抗机器学习的规避攻击生成新的被错误分类的例子,并用于第一步模型的重新训练和改进增强模型的公平性。将这两个步骤迭代应用,直到显著提高公平性。
May, 2020
本文研究通过对抗训练神经网络来消除敏感属性信息从而实现分类器 “公平” 的方法。发现只需要少量数据即可训练出具有公平性的分类器,并且数据分布影响对手的公平概念。
Jul, 2017
本文介绍了一个最小二乘对抗框架,其中一个发生器生成学习个体的潜在表示,一个评论家保证了不同保护组的分布相似,从而在保留足够信息的同时解决了受保护属性引起的潜在偏差问题,为公平分类提供了理论保证。经验结果表明,这种方法可以有效地用于分类任务,特别是在删除受保护属性不足以实现公平分类的情况下。
Apr, 2019
为保证公正性,公平机器学习算法致力于消除不同群体间的行为差异,但是研究表明,在训练数据存在偏差的情况下,将同等的重视不同规模和分布的不同群体,可能会与鲁棒性相冲突,攻击者可以通过对样本和标签的控制来攻击群体公平性机器学习,从而在测试数据上显著降低测试准确率,本文评估了多种算法和基准数据集的攻击,分析了公平机器学习的鲁棒性。
Jun, 2020
为了保证医疗人工智能系统的公平性和对负责任,我们提出了一种对抗性多任务训练策略来同时减轻和检测基于深度学习的医学图像分析系统中的偏见。实验表明我们提出的方法具有较高的有效性。
Mar, 2021
本文提出了通过引入变量以及同时训练预测器和对手的方式来缓解训练数据中存在的偏见问题,在不同定义的公平性与多种基于梯度的学习模型,包括回归和分类任务中均具有广泛适用性的公平性缓解方法。
Jan, 2018
本篇论文提出了一种通用的重构校正方法,可以在满足用户定义的约束条件(如公平性信息)的同时最小化敌手的猜测的更改,并解决了黑盒访问目标模型的情况下反应了培训数据敏感属性的问题。
Sep, 2022
利用神经网络以简单的随机采样器对敏感属性进行学习的公平惩罚措施,旨在实现非歧视性监督学习。与现有的许多方法相比,该惩罚能够处理多种格式的敏感属性,因此在实践中更具广泛适用性。实证证据表明,我们的框架在流行的基准数据集上的效用和公平性度量优于竞争方法。我们还在理论上表征了所提出的神经网络惩罚风险最小化问题的估计误差和效用损失。
Nov, 2023
我们提出 Adversarially Reweighted Learning (ARL) 来解决机器学习(ML)公平性研究中的现实问题:如何在不知道保护组成员身份的情况下训练 ML 模型以提高公平性,我们的结果显示,ARL 可以提高 Rawlsian Max-Min 公平性,在多个数据集中最坏情况下保护组的 AUC 得分优于现有的最先进方法。
Jun, 2020