当对抗性学习公平表征时的数据决策与理论含义

Jul, 2017

当对抗性学习公平表征时的数据决策与理论含义

Data Decisions and Theoretical Implications when Adversarially Learning Fair Representations

Alex Beutel, Jilin Chen, Zhe Zhao, Ed H. Chi

TL;DR本文研究通过对抗训练神经网络来消除敏感属性信息从而实现分类器 “公平” 的方法。发现只需要少量数据即可训练出具有公平性的分类器，并且数据分布影响对手的公平概念。

Abstract

How can we learn a classifier that is "fair" for a protected or sensitive group, when we do not know if the input to the classifier belongs to the protected group? How can we train such a →

fairness classifier sensitive attribute adversarial training neural network

发现论文，激发创造

通过对抗性框架学习公平表示

本文介绍了一个最小二乘对抗框架，其中一个发生器生成学习个体的潜在表示，一个评论家保证了不同保护组的分布相似，从而在保留足够信息的同时解决了受保护属性引起的潜在偏差问题，为公平分类提供了理论保证。经验结果表明，这种方法可以有效地用于分类任务，特别是在删除受保护属性不足以实现公平分类的情况下。

Apr, 2019

通过对抗网络逼近机器学习公平性

介绍一种新的针对敏感特征的机器学习公平性框架，通过去除敏感信息和最小化敏感特征的边际贡献来改善模型的公平性。实验结果表明，该模型在公平性指标和预测性能方面均优于相关最先进方法。

Sep, 2019

公平表征的对比学习

本论文提出了一种采用对比学习的分类器去偏置化的方法，使得模型在保持主要任务性能的前提下，更加公平地代表输入的各种属性，并取得了在 NLP 和计算机视觉四个任务中的优异表现。

Sep, 2021

利用公平性来增强敏感属性的重建

本篇论文提出了一种通用的重构校正方法，可以在满足用户定义的约束条件（如公平性信息）的同时最小化敌手的猜测的更改，并解决了黑盒访问目标模型的情况下反应了培训数据敏感属性的问题。

Sep, 2022

用对手模型压制表示

采用对抗生成网络的方法，学习灵活的、去除敏感信息的表示，以减少歧视和保护隐私，解决在机器学习应用中存在的限制问题。

Nov, 2015

关于以大部分为私有敏感属性的公平分类

本文提出了在机器学习半私密设置中进行公平分类的新框架 FairSP，该框架可以借助少量的干净敏感属性来纠正嘈杂的敏感属性，然后通过对抗的方式，共同模拟已经校正的和干净的数据，以实现去偏差和预测，并证明该模型可以保证当大多数敏感属性是私密时的公平性。

Jul, 2022

伦理对手：通过对抗机器学习缓解不公平现象

提出了一个框架以减少训练数据集中不公平的代表性，其中使用两个相互操作的对手功能来提高公平性。首先，通过训练模型防止猜测受保护属性的值，同时限制效用损失，实现模型公平性优化。然后，利用对抗机器学习的规避攻击生成新的被错误分类的例子，并用于第一步模型的重新训练和改进增强模型的公平性。将这两个步骤迭代应用，直到显著提高公平性。

May, 2020

无需公平训练的公平分类器：一种受影响引导的数据采样方法

学习公平分类器的方法是避免使用敏感属性的训练数据，在适当分布转移的数据集上进行传统训练可以同时减少公平差距上界和模型泛化误差，提高公平性和准确性。我们提出了一种可行的解决方案，通过采样有影响力的数据来在训练过程中逐步转移原始训练数据，其中新数据的敏感属性不会被访问或用于训练。对真实数据的大量实验验证了我们提出算法的有效性。

Feb, 2024

跨域公平分类的联合对抗学习

本文探讨了在缺少敏感属性的情况下，利用类似领域中的辅助信息来提高目标领域中的公正分类的可行性，并提出了一种既能学习到目标领域中的公正分类器，又能估计敏感属性的新框架，实验结果表明其有效性。

Jun, 2022

盲目的正义：加密敏感属性下的公正

介绍了如何通过安全多方计算的方法，加密敏感属性，学习一个基于结果的公平模型，而无需揭示个人敏感信息，从而避免种族或性别等敏感属性对机器学习模型造成的不公平问题。

Jun, 2018