通过对抗学习实现平等机会公平性

Mar, 2022

通过对抗学习实现平等机会公平性

Towards Equal Opportunity Fairness through Adversarial Learning

Xudong Han, Timothy Baldwin, Trevor Cohn

TL;DR本文提出了一种用于对抗训练的增强鉴别器，以更丰富的特征和更明确的方式建模平等机会，实验证明相比标准的针对偏见的对抗性去偏见方法，我们的方法在性能 - 公平性平衡方面有很大的改进。

Abstract

adversarial training is a common approach for bias mitigation in natural language processing. Although most work on debiasing is motivated by equal opportunity, it is not explicitly captured in standard

adversarial training bias mitigation equal opportunity discriminator performance-fairness trade-off

发现论文，激发创造

通过多元对手应对训练中的偏差问题

本文提出了一种基于多个不同鉴别器的新型对抗学习方法，通过鼓励鉴别器相互学习正交隐藏表征，从而显著改善了标准对抗去偏差方法对于降低偏见和提升训练稳定性的效果。

Jan, 2021

模型训练中优化平等机会公平性

本研究提出了两种新的训练目标，直接优化了广泛使用的平等机会标准，并证明它们在两个分类任务中减少偏见的同时保持高性能。

May, 2022

通过对抗学习估计和提高公平性

为了保证医疗人工智能系统的公平性和对负责任，我们提出了一种对抗性多任务训练策略来同时减轻和检测基于深度学习的医学图像分析系统中的偏见。实验表明我们提出的方法具有较高的有效性。

Mar, 2021

关于对抗偏差和公正机器学习的鲁棒性

为保证公正性，公平机器学习算法致力于消除不同群体间的行为差异，但是研究表明，在训练数据存在偏差的情况下，将同等的重视不同规模和分布的不同群体，可能会与鲁棒性相冲突，攻击者可以通过对样本和标签的控制来攻击群体公平性机器学习，从而在测试数据上显著降低测试准确率，本文评估了多种算法和基准数据集的攻击，分析了公平机器学习的鲁棒性。

Jun, 2020

用对抗学习缓解不必要的偏见

本文提出了通过引入变量以及同时训练预测器和对手的方式来缓解训练数据中存在的偏见问题，在不同定义的公平性与多种基于梯度的学习模型，包括回归和分类任务中均具有广泛适用性的公平性缓解方法。

Jan, 2018

朝向准确性 - 公正性困境：基于对抗样本的数据增强用于视觉去偏差

研究机器学习中的公平性问题和图像分类任务中的去偏见问题，通过使用对抗性样本进行训练数据增强来实现模型的准确性和公平性。

Jul, 2020

伦理对手：通过对抗机器学习缓解不公平现象

提出了一个框架以减少训练数据集中不公平的代表性，其中使用两个相互操作的对手功能来提高公平性。首先，通过训练模型防止猜测受保护属性的值，同时限制效用损失，实现模型公平性优化。然后，利用对抗机器学习的规避攻击生成新的被错误分类的例子，并用于第一步模型的重新训练和改进增强模型的公平性。将这两个步骤迭代应用，直到显著提高公平性。

May, 2020

通过对抗网络逼近机器学习公平性

介绍一种新的针对敏感特征的机器学习公平性框架，通过去除敏感信息和最小化敏感特征的边际贡献来改善模型的公平性。实验结果表明，该模型在公平性指标和预测性能方面均优于相关最先进方法。

Sep, 2019

平衡偏差：通过平衡训练实现公平

该研究旨在解决自然语言处理中与作者人口统计信息相关的系统偏差问题，提出了一种基于数据集平衡和带保护属性的门控模型来实现公正性，证明了该方法在减少偏差方面优于其他技术。

Sep, 2021

公平表征的对比学习

本论文提出了一种采用对比学习的分类器去偏置化的方法，使得模型在保持主要任务性能的前提下，更加公平地代表输入的各种属性，并取得了在 NLP 和计算机视觉四个任务中的优异表现。

Sep, 2021