用对手模型压制表示

ICLRNov, 2015

Censoring Representations with an Adversary

Harrison Edwards, Amos Storkey

TL;DR采用对抗生成网络的方法，学习灵活的、去除敏感信息的表示，以减少歧视和保护隐私，解决在机器学习应用中存在的限制问题。

Abstract

In practice, there are often explicit constraints on what representations or decisions are acceptable in an application of machine learning. For example it may be a legal requirement that a decision must not favour a particular group. Alternatively it can be that that representation of

machine learning adversarial approach discrimination privacy flexible representations

发现论文，激发创造

通过对抗特征学习实现可控的不变性

本文提出了一种通过对抗学习策略学习能够抵抗特定数据因素影响的新型表示学习方法，并通过多个基准测试表明所提出的方法可以获取到不变表示，从而提高模型的泛化能力。

May, 2017

通过对抗性框架学习公平表示

本文介绍了一个最小二乘对抗框架，其中一个发生器生成学习个体的潜在表示，一个评论家保证了不同保护组的分布相似，从而在保留足够信息的同时解决了受保护属性引起的潜在偏差问题，为公平分类提供了理论保证。经验结果表明，这种方法可以有效地用于分类任务，特别是在删除受保护属性不足以实现公平分类的情况下。

Apr, 2019

当对抗性学习公平表征时的数据决策与理论含义

本文研究通过对抗训练神经网络来消除敏感属性信息从而实现分类器 “公平” 的方法。发现只需要少量数据即可训练出具有公平性的分类器，并且数据分布影响对手的公平概念。

Jul, 2017

使用阻尼和堆叠的对抗生成的公平特征表示

研究利用减震和堆叠学习对抗性公正表征并在审查和重建方面改善了早期工作。

Mar, 2022

无需对抗训练的不变表征

无需对抗训练，使用信息论优化能够直接获得可控转换的公平表示和生成建模的最新性能

May, 2018

伦理对手：通过对抗机器学习缓解不公平现象

提出了一个框架以减少训练数据集中不公平的代表性，其中使用两个相互操作的对手功能来提高公平性。首先，通过训练模型防止猜测受保护属性的值，同时限制效用损失，实现模型公平性优化。然后，利用对抗机器学习的规避攻击生成新的被错误分类的例子，并用于第一步模型的重新训练和改进增强模型的公平性。将这两个步骤迭代应用，直到显著提高公平性。

May, 2020

通过对抗网络逼近机器学习公平性

介绍一种新的针对敏感特征的机器学习公平性框架，通过去除敏感信息和最小化敏感特征的边际贡献来改善模型的公平性。实验结果表明，该模型在公平性指标和预测性能方面均优于相关最先进方法。

Sep, 2019

用对抗学习缓解不必要的偏见

本文提出了通过引入变量以及同时训练预测器和对手的方式来缓解训练数据中存在的偏见问题，在不同定义的公平性与多种基于梯度的学习模型，包括回归和分类任务中均具有广泛适用性的公平性缓解方法。

Jan, 2018

隐私保护与任务导向表征的对抗学习

本文提出了一种对抗性重构学习框架，旨在学习一种以任务为导向的隐私保护表示，以防止模型反演攻击，采用负像素重构损失或负感知距离损失最小化来实现，展示了在面部属性预测任务中我们的方法可以在小幅度降低实用性的情况下保护视觉隐私，并提供了不同特征、任务和数据的广泛研究，以进一步分析它们对隐私保护的影响和效用 - 隐私权衡的关系。

Nov, 2019

通过 Rényi 最小化学习无偏表示

本文提出了一种通过 Hirschfeld-Gebelein-Renyi (HGR) 最大相关系数生成不带偏见表示的对抗性算法，从而实现了在机器学习算法的训练目标中包含公平性约束。

Sep, 2020