用对手模型压制表示
本文提出了一种通过对抗学习策略学习能够抵抗特定数据因素影响的新型表示学习方法,并通过多个基准测试表明所提出的方法可以获取到不变表示,从而提高模型的泛化能力。
May, 2017
本文介绍了一个最小二乘对抗框架,其中一个发生器生成学习个体的潜在表示,一个评论家保证了不同保护组的分布相似,从而在保留足够信息的同时解决了受保护属性引起的潜在偏差问题,为公平分类提供了理论保证。经验结果表明,这种方法可以有效地用于分类任务,特别是在删除受保护属性不足以实现公平分类的情况下。
Apr, 2019
本文研究通过对抗训练神经网络来消除敏感属性信息从而实现分类器 “公平” 的方法。发现只需要少量数据即可训练出具有公平性的分类器,并且数据分布影响对手的公平概念。
Jul, 2017
提出了一个框架以减少训练数据集中不公平的代表性,其中使用两个相互操作的对手功能来提高公平性。首先,通过训练模型防止猜测受保护属性的值,同时限制效用损失,实现模型公平性优化。然后,利用对抗机器学习的规避攻击生成新的被错误分类的例子,并用于第一步模型的重新训练和改进增强模型的公平性。将这两个步骤迭代应用,直到显著提高公平性。
May, 2020
介绍一种新的针对敏感特征的机器学习公平性框架,通过去除敏感信息和最小化敏感特征的边际贡献来改善模型的公平性。实验结果表明,该模型在公平性指标和预测性能方面均优于相关最先进方法。
Sep, 2019
本文提出了通过引入变量以及同时训练预测器和对手的方式来缓解训练数据中存在的偏见问题,在不同定义的公平性与多种基于梯度的学习模型,包括回归和分类任务中均具有广泛适用性的公平性缓解方法。
Jan, 2018
本文提出了一种对抗性重构学习框架,旨在学习一种以任务为导向的隐私保护表示,以防止模型反演攻击,采用负像素重构损失或负感知距离损失最小化来实现,展示了在面部属性预测任务中我们的方法可以在小幅度降低实用性的情况下保护视觉隐私,并提供了不同特征、任务和数据的广泛研究,以进一步分析它们对隐私保护的影响和效用 - 隐私权衡的关系。
Nov, 2019
本文提出了一种通过 Hirschfeld-Gebelein-Renyi (HGR) 最大相关系数生成不带偏见表示的对抗性算法,从而实现了在机器学习算法的训练目标中包含公平性约束。
Sep, 2020