通过对抗属性邻域强化学习实现公平

Oct, 2022

通过对抗属性邻域强化学习实现公平

Fairness via Adversarial Attribute Neighbourhood Robust Learning

Qi Qi, Shervin Ardeshir, Yi Xu, Tianbao Yang

TL;DR提出一种基于 Robust Adversarial Attribute Neighbourhood (RAAN) Loss 的公平分类模型优化方法，将样本划分为不同的敏感属性群组并使用对抗性的鲁棒权重来调整模型，达到不同群组之间分布更公平的目的。并提出了 stochastic adaptive (Adam-style) 和 non-adaptive (SGD-style) 算法框架，具有可证明的理论保证，实验证明该方法有效。

Abstract

Improving fairness between privileged and less-privileged sensitive attribute groups (e.g, {race, gender}) has attracted lots of attention. To enhance the model performs uniformly well in different sensitive attributes<

fairness sensitive attributes adversarial robustness classification optimization

发现论文，激发创造

公平 ROAD：对抗去偏的鲁棒优化

该研究致力于解决局部公平性问题，引入了 ROAD 方法，结合了分布鲁棒优化框架和公平对抗学习目标，从而实现了在整个人口和特征空间的任何子区域内预测的无偏性。实证实验证明该方法在三个标准数据集上实现了局部公平性和准确性的帕累托优势，并在分布转移下增强了公平性的推广能力。

Oct, 2023

走向公平感知的对抗学习

在这篇论文中，我们提出了一种名为公平感知对抗学习（FAAL）的新的学习范式，通过将鲁棒训练问题重新定义为最小 - 最大 - 最大框架，以确保训练模型的鲁棒性和公平性。具体而言，通过利用分布鲁棒优化，我们的方法旨在在不同类别之间找到最差的分布，解决方法保证了高概率的上界性能。FAAL 可以在仅两个迭代周期内将一个不公平的鲁棒模型调整为公平模型，而不牺牲整体准确性和鲁棒性，实验证明了 FAAL 相对于其他先进方法的卓越性能和高效性。

Feb, 2024

以简单随机抽样器进行敏感属性的公平监督学习

利用神经网络以简单的随机采样器对敏感属性进行学习的公平惩罚措施，旨在实现非歧视性监督学习。与现有的许多方法相比，该惩罚能够处理多种格式的敏感属性，因此在实践中更具广泛适用性。实证证据表明，我们的框架在流行的基准数据集上的效用和公平性度量优于竞争方法。我们还在理论上表征了所提出的神经网络惩罚风险最小化问题的估计误差和效用损失。

Nov, 2023

面部属性：准确性和对抗鲁棒性

本文研究了利用深度神经网络提取面部特征的鲁棒性，通过生成对抗性样本测试了多种算法的可靠性，并提出了自然对抗样本的概念，发现即使在经过多次训练的情况下，网络仍然存在一些本该被正确分类的对抗样本。

Jan, 2018

通过对抗性框架学习公平表示

本文介绍了一个最小二乘对抗框架，其中一个发生器生成学习个体的潜在表示，一个评论家保证了不同保护组的分布相似，从而在保留足够信息的同时解决了受保护属性引起的潜在偏差问题，为公平分类提供了理论保证。经验结果表明，这种方法可以有效地用于分类任务，特别是在删除受保护属性不足以实现公平分类的情况下。

Apr, 2019

通过对抗加权学习实现无需人口统计学的公正性

我们提出 Adversarially Reweighted Learning (ARL) 来解决机器学习（ML）公平性研究中的现实问题：如何在不知道保护组成员身份的情况下训练 ML 模型以提高公平性，我们的结果显示，ARL 可以提高 Rawlsian Max-Min 公平性，在多个数据集中最坏情况下保护组的 AUC 得分优于现有的最先进方法。

Jun, 2020

SABAF: 基于对抗滤波消除神经网络中的强属性偏差

该研究旨在提升公平和有保证的人工智能发展中，确保神经网络不依赖受保护属性（例如种族、性别、年龄）进行预测。通过分析现有属性偏差去除方法的局限性，研究发现其在面对强偏差时存在局限，并提出了一种能够缓解这种局限的新方法，该方法在输入空间中使用对抗目标，直接过滤掉受保护属性同时最大程度地保留其他属性，无需特定目标标签，并在强偏差和中等偏差设置下实现了最先进的性能。通过对合成、图像和人口普查数据集的广泛实验证明了理论界限的有效性，并评估了所提方法在消除强属性偏差方面的有效性。

Nov, 2023

通过对抗网络逼近机器学习公平性

介绍一种新的针对敏感特征的机器学习公平性框架，通过去除敏感信息和最小化敏感特征的边际贡献来改善模型的公平性。实验结果表明，该模型在公平性指标和预测性能方面均优于相关最先进方法。

Sep, 2019

DAFA：距离感知公平对抗训练

基于理论和实证分析，我们演示了当类别之间的距离减小时，鲁棒公平性会恶化的现象。鉴于这些观察，我们引入了一种称为 “距离感知的公平对抗训练（DAFA）” 的方法，它通过考虑类别之间的相似性来解决鲁棒公平性问题。具体而言，我们的方法给每个类别分配不同的损失权重和对抗边界，并调整它们以在相似类别之间促进鲁棒性的权衡。在各个数据集上的实验结果证明，与现有方法相比，我们的方法不仅具有平均鲁棒准确性，而且还显著提高了最差鲁棒准确性，表明在鲁棒公平性方面有了显著的改进。

Jan, 2024

RobustFair: 公平困惑导向的对抗评估梯度搜索

提出了一种使用 “fairness confusion” 概念的方法来平衡准确性和个体公平性之间的关系，使用由 “fairness confusion directed gradient search” 制作的敌对扰动的方法来改善深层神经网络的 “accurate fairness”，提高准确性和个体公平性。

May, 2023