受盾形表示：通过迭代梯度投影保护敏感属性

ACLMay, 2023

受盾形表示：通过迭代梯度投影保护敏感属性

Shielded Representations: Protecting Sensitive Attributes Through Iterative Gradient-Based Projection

Shadi Iskander, Kira Radinsky, Yonatan Belinkov

TL;DR本文通过引入一种新的方法 IGBP，提出了一种在自然语言处理模型中去除非线性编码概念的方案，实验结果表明，该方法可以有效缓解社会偏见，并对下游任务的准确性没有太大的影响。

Abstract

natural language processing models tend to learn and encode social biases present in the data. One popular approach for addressing such biases is to eliminate →

natural language processing social biases encoded information neural representations gender and race

发现论文，激发创造

通过迭代零空间投影来保护受保护属性

我们提出了一种名为迭代零空间投影 (INLP) 的新方法，它基于线性分类器的训练，通过在空间中进行映射，以消除神经表示中的特定属性，并减少了词嵌入中的偏见，提高了多类分类的公平性。

Apr, 2020

通过基于梯度的表示解释来消除模型偏差

本文提出了一种基于代理属性与敏感属性的公平性框架，通过梯度解释找到模型关注点，再利用它们来指导下游任务模型的训练，以实现公平性和效用之间的平衡。实验证明，我们的框架在非分离和分离表示学习方法上具有更好的公平性 - 精度平衡。

May, 2023

控制偏见暴露以实现公平和可解释的预测

本文提出了一种公平去偏算法，通过调整预测模型的信念，尽可能使用敏感信息来进行预测，并在必要性最小化的同时承受一定的惩罚，以达到去偏和任务性能之间的理想平衡，并生成经过去偏的证明。

Oct, 2022

迭代正交特征投影检测黑匣子模型中的偏见

通过正交投影的迭代过程，可以量化黑盒预测模型对其输入属性的相对依赖性，进而评估这种模型的公平性或歧视程度。

Nov, 2016

名字有什么作用？在无法访问受保护属性的情况下减少生物学的偏见

通过减少个人名称的词嵌入与真实职业预测概率的相关性，以消除词嵌入中所编码的社会偏见，提出了一种方法，无需访问受保护属性，仅在训练期间需要访问个人名称，从而在职业分类中减少种族和性别偏见。

Apr, 2019

朝向无需假设的偏见缓解

通过建模特征交互来检测相关属性以减轻偏见影响的无假设框架，大大减轻了机器学习模型中针对特定人群的歧视和不公平预测行为。

Jul, 2023

忽视偏见：从深度神经网络嵌入中明确移除偏差和变异

通过算法和祖源数据库的使用，可以提高神经网络在极度偏斜的数据集上的分类准确性，并消除与数据集相关的偏见和变异。

Sep, 2018

线性保障性及其影响

本文研究了神经表示中线性保护性的影响，以及在二进制情况下，附加线性层无法恢复保护性概念。但是，使用多类 softmax 分类器可以间接恢复目标概念，暴露了线性信息去除方法的理论限制。

Oct, 2022

通过互信息反向传播学习无偏表示

利用信息论的有关发现，我们提出了一种新的端到端优化策略，该策略同时估计和最小化学习表示和数据属性之间的互信息，通过这种策略，我们的模型在标准基准测试中表现出与最先进的方法相当或优越的分类性能，此方法可应用于问题的 “算法公平性”，并得到了竞争性的结果。

Mar, 2020

SensitiveNets: 学习应用于人脸图像的不可知表示

本文提出了一种新颖的隐私保护神经网络特征表示方法，使得学习到的空间中的敏感信息得以削弱，同时保持数据的实用性；该方法不仅保证了用户数据的隐私，而且还提升了算法的公平性和结果的可行性。

Feb, 2019