文本数据种的人口属性对抗性剔除

Aug, 2018

文本数据种的人口属性对抗性剔除

Adversarial Removal of Demographic Attributes from Text Data

Yanai Elazar, Yoav Goldberg

TL;DR本篇论文通过实验证明，作者的人口统计信息可以从神经分类器中间表示中被检测出来；在尝试用对抗性训练去除这些信息时，该方法效果不佳，需要注意敏感特征的不变表示不应仅依赖于对抗性训练。

Abstract

Recent advances in representation learning and adversarial training seem to succeed in removing unwanted features from the learned representation. We show that →

representation learning adversarial training demographic information neural classifiers sensitive features

发现论文，激发创造

文本分类的人口统计信息对抗清理

本文通过 Adversarial Scrubber 模型构建一个去偏置的框架，旨在在维持目标任务性能的同时，去除受到性别、种族等社会统计属性的不良影响，通过最小描述长度探测等实验展示了该模型的性能优异性。

Sep, 2021

当对抗性学习公平表征时的数据决策与理论含义

本文研究通过对抗训练神经网络来消除敏感属性信息从而实现分类器 “公平” 的方法。发现只需要少量数据即可训练出具有公平性的分类器，并且数据分布影响对手的公平概念。

Jul, 2017

使用对抗训练来消除推荐系统中保护用户属性的影响

本研究通过在当前最先进的 MultVAE 结构中引入对抗训练，提出了一种新型保护用户隐私的推荐系统算法 Adv-MultVAE，该算法利用多项式似然函数去除隐私属性的影响，同时保持了推荐精度，并通过实验证明了 Adv-MultVAE 对多个数据集的强健性。

Jun, 2022

用对抗学习缓解不必要的偏见

本文提出了通过引入变量以及同时训练预测器和对手的方式来缓解训练数据中存在的偏见问题，在不同定义的公平性与多种基于梯度的学习模型，包括回归和分类任务中均具有广泛适用性的公平性缓解方法。

Jan, 2018

利用原型表示消除社会偏见而不包含人口统计信息

DAFair 是一种用于减轻语言模型中社会偏见的新方法，通过预定义的典型人口统计文本，并在微调过程中加入正则化项来纠正模型的表示中的偏见，从而在两个任务和两个模型上实证结果显示了我们方法的有效性。此外，即使在有限的人口统计注释数据下，我们的方法也优于常见的去偏方法。

Mar, 2024

深度概念去除

我们提出了一种基于对抗线性分类器的新方法，用于解决深度神经网络中的概念消除问题，旨在学习不编码特定概念（如性别等）的表示。我们的方法在网络的各个层次上引入了对抗性探测分类器，有效地解决概念交织问题，并改善了分布不鲁棒优化和超出分布的泛化任务中的性能。

Oct, 2023

有限人口分类标记数据下的公平机器学习

本研究提出了一种新型的公平训练算法，该算法在尽可能保护个人隐私的情况下，避免了在机器学习模型中存在不良社会偏见的问题。实验结果显示，该算法可以有效降低社会偏见问题。

Jun, 2021

学习平滑和公平的表示

为了防止受保护人口受到歧视，减轻数据拥有者法律责任，本文尝试通过映射特征到公平表征空间，预防性地消除特征与敏感属性之间的相关性。实验结果表明，平滑表征分布可提供公平证书的泛化保证，同时不降低下游任务的准确性。

Jun, 2020

通过对抗性框架学习公平表示

本文介绍了一个最小二乘对抗框架，其中一个发生器生成学习个体的潜在表示，一个评论家保证了不同保护组的分布相似，从而在保留足够信息的同时解决了受保护属性引起的潜在偏差问题，为公平分类提供了理论保证。经验结果表明，这种方法可以有效地用于分类任务，特别是在删除受保护属性不足以实现公平分类的情况下。

Apr, 2019

使用对抗神经网络学习匿名表示

本研究探讨基于表示学习和深度神经网络的匿名化方法，介绍了一种新的训练目标，同时训练一个预测器和防止中间表征成为私有标签的预测值。该三子网络的基架对应输入到表征、表征到预测的常规标签和表征到预测的私有标签。在保留有关常规标签的信息的同时，摒弃与身份有关的私人标签信息的学习表征，从而实现了有关分类与匿名化任务（手写数字和情感分析）的成功演示。

Feb, 2018