SABAF: 基于对抗滤波消除神经网络中的强属性偏差

Nov, 2023

SABAF: 基于对抗滤波消除神经网络中的强属性偏差

SABAF: Removing Strong Attribute Bias from Neural Networks with Adversarial Filtering

Jiazhi Li, Mahyar Khayatkhoei, Jiageng Zhu, Hanchen Xie, Mohamed E. Hussein...

TL;DR该研究旨在提升公平和有保证的人工智能发展中，确保神经网络不依赖受保护属性（例如种族、性别、年龄）进行预测。通过分析现有属性偏差去除方法的局限性，研究发现其在面对强偏差时存在局限，并提出了一种能够缓解这种局限的新方法，该方法在输入空间中使用对抗目标，直接过滤掉受保护属性同时最大程度地保留其他属性，无需特定目标标签，并在强偏差和中等偏差设置下实现了最先进的性能。通过对合成、图像和人口普查数据集的广泛实验证明了理论界限的有效性，并评估了所提方法在消除强属性偏差方面的有效性。

Abstract

Ensuring a neural network is not relying on protected attributes (e.g., race, sex, age) for prediction is crucial in advancing fair and trustwort

neural network protected attributes attribute bias fairness trustworthy ai

发现论文，激发创造

神经网络消除属性特定偏差的信息理论界限

通过数学和实证研究，揭示了属性偏见消除方法在存在强偏见时的一个重要限制，并验证了这一理论界限在实践中的影响。发现现有的属性偏见消除方法仅在数据集中固有偏见相对较弱时有效，因此警告不要在较小的数据集中使用这些方法，同时主张需要克服这一局限性的方法。

Oct, 2023

使用对抗训练来消除推荐系统中保护用户属性的影响

本研究通过在当前最先进的 MultVAE 结构中引入对抗训练，提出了一种新型保护用户隐私的推荐系统算法 Adv-MultVAE，该算法利用多项式似然函数去除隐私属性的影响，同时保持了推荐精度，并通过实验证明了 Adv-MultVAE 对多个数据集的强健性。

Jun, 2022

朝向无需假设的偏见缓解

通过建模特征交互来检测相关属性以减轻偏见影响的无假设框架，大大减轻了机器学习模型中针对特定人群的歧视和不公平预测行为。

Jul, 2023

面部属性：准确性和对抗鲁棒性

本文研究了利用深度神经网络提取面部特征的鲁棒性，通过生成对抗性样本测试了多种算法的可靠性，并提出了自然对抗样本的概念，发现即使在经过多次训练的情况下，网络仍然存在一些本该被正确分类的对抗样本。

Jan, 2018

通过对抗属性邻域强化学习实现公平

提出一种基于 Robust Adversarial Attribute Neighbourhood (RAAN) Loss 的公平分类模型优化方法，将样本划分为不同的敏感属性群组并使用对抗性的鲁棒权重来调整模型，达到不同群组之间分布更公平的目的。并提出了 stochastic adaptive (Adam-style) 和 non-adaptive (SGD-style) 算法框架，具有可证明的理论保证，实验证明该方法有效。

Oct, 2022

公平分类遇到含噪保护属性

在实现算法公平性方面存在多个实际挑战，包括数据集中受保护属性的可用性或可靠性。本研究首次对公平分类算法进行了头对头的研究，以比较基于属性、容忍噪声和盲目属性的算法在预测性和公平性两个方面的表现。我们通过对四个真实数据集和合成扰动的案例研究来评估这些算法，发现盲目属性和容忍噪声的公平分类器在受保护属性存在噪声的情况下，可能实现与基于属性的算法类似的性能水平。然而，在实践中实现这些算法需要谨慎处理。本研究为在受保护属性存在噪声或部分可用的场景中使用公平分类算法提供了实践的启示。

Jul, 2023

控制偏见暴露以实现公平和可解释的预测

本文提出了一种公平去偏算法，通过调整预测模型的信念，尽可能使用敏感信息来进行预测，并在必要性最小化的同时承受一定的惩罚，以达到去偏和任务性能之间的理想平衡，并生成经过去偏的证明。

Oct, 2022

PASS: 面部识别中减轻偏见的保护属性抑制系统

本研究介绍一种名为 PASS 的描述符型对抗去偏置方法，该方法在不需要进行端到端训练的情况下，可以在同时分类身份和减少敏感属性编码的基础上，对来自任何先前经过高性能网络训练的描述符进行训练。经在 Arcface 等 SOTA 面部识别网络上进行降低的性别和肤色偏差测试，证明 PASS 描述符优于现有基线，并且仍然具有高的验证准确性。

Aug, 2021

神经表示中未对齐属性的擦除

本文介绍了 AMSAL 算法和它在多个数据集上的测试，其中包括一个 Twitter 数据集和带有各种类型的保护属性的 BiasBench 基准测试。该算法旨在在信息需要被删除，但不是直接与输入示例对齐的情况下，从神经表示中删除信息。

Feb, 2023

面部属性是否具有对抗性鲁棒性？

通过无需预训练或数据集增强的深度卷积神经网络，本研究提出了一种简单且有效的自动面部特征提取解决方案，并在 CelebA 数据集上获得了最新的面部特征分类结果。研究者还通过引入营造自然对抗样本的概念，证明了对于某些特征，深度卷积神经网络对于对抗性输入是鲁棒的，而对于其他特征则不是。

May, 2016