神经表示中未对齐属性的擦除

Feb, 2023

Erasure of Unaligned Attributes from Neural Representations

Shun Shao, Yftah Ziser, Shay Cohen

TL;DR本文介绍了 AMSAL 算法和它在多个数据集上的测试，其中包括一个 Twitter 数据集和带有各种类型的保护属性的 BiasBench 基准测试。该算法旨在在信息需要被删除，但不是直接与输入示例对齐的情况下，从神经表示中删除信息。

Abstract

We present the assignment-Maximization Spectral Attribute removaL (AMSAL) algorithm, which aims at removing information from neural representations when the information to be erased is implicit rather than direct

amsal algorithm neural representations information erasure assignment protected attributes

发现论文，激发创造

黄金未必总是发光的：线性和非线性受保护属性信息的光谱去除

该研究介绍了一种简单有效的方法，称为 SAL，它使用矩阵分解将输入向量投影到与守卫信息减少协方差的方向上，从而达到去除神经表示中的私密信息的目的。这种方法也适用于非线性信息去除，且其实验结果表明该算法将主要任务性能与去除守卫信息后的性能相比较，更优秀，同时只需要使用相对较少量的守卫信息即可，更适用于低资源的情境。

Mar, 2022

神经网络消除属性特定偏差的信息理论界限

通过数学和实证研究，揭示了属性偏见消除方法在存在强偏见时的一个重要限制，并验证了这一理论界限在实践中的影响。发现现有的属性偏见消除方法仅在数据集中固有偏见相对较弱时有效，因此警告不要在较小的数据集中使用这些方法，同时主张需要克服这一局限性的方法。

Oct, 2023

SABAF: 基于对抗滤波消除神经网络中的强属性偏差

该研究旨在提升公平和有保证的人工智能发展中，确保神经网络不依赖受保护属性（例如种族、性别、年龄）进行预测。通过分析现有属性偏差去除方法的局限性，研究发现其在面对强偏差时存在局限，并提出了一种能够缓解这种局限的新方法，该方法在输入空间中使用对抗目标，直接过滤掉受保护属性同时最大程度地保留其他属性，无需特定目标标签，并在强偏差和中等偏差设置下实现了最先进的性能。通过对合成、图像和人口普查数据集的广泛实验证明了理论界限的有效性，并评估了所提方法在消除强属性偏差方面的有效性。

Nov, 2023

受盾形表示：通过迭代梯度投影保护敏感属性

本文通过引入一种新的方法 IGBP，提出了一种在自然语言处理模型中去除非线性编码概念的方案，实验结果表明，该方法可以有效缓解社会偏见，并对下游任务的准确性没有太大的影响。

May, 2023

图像操作中的监督属性信息去除和重建

本文提出了一种 Attribute Information Removal and Reconstruction（AIRR）网络，通过学习如何完全去除属性信息创建不包含属性信息的特征，然后学习在重建图像中直接注入所需属性，以避免信息隐藏问题，并在四个数据集上评估。结果表明，与先前的工作相比，我们的模型平均提高了 10％的属性操作准确性和 top-k 检索率，用户研究也表明 AIRR 操作的图像在高达 76％的情况下优于先前的工作。

Jul, 2022

使用对抗训练来消除推荐系统中保护用户属性的影响

本研究通过在当前最先进的 MultVAE 结构中引入对抗训练，提出了一种新型保护用户隐私的推荐系统算法 Adv-MultVAE，该算法利用多项式似然函数去除隐私属性的影响，同时保持了推荐精度，并通过实验证明了 Adv-MultVAE 对多个数据集的强健性。

Jun, 2022

通过潜空间去偏置实现公平的属性分类

本文介绍了一种使用 GAN 生成图像并在潜在空间中扰动以生成可以平衡每个受保护属性的训练数据的方法，以缓解由相关性所引起的偏差，通过在原始数据集上增加扰动生成的数据，实证证明训练结果准确且具有许多定量和定性上的优势。在 CelebA 数据集上进行了全面评估和分析，与现有文献进行了比较。

Dec, 2020

利用成对分布差异的亲和力聚类框架进行数据去偏差

本文提出一种利用亲和力聚类进行数据增强的方法（MASC），以平衡目标数据集中受保护群体和非受保护群体的比例和代表性，通过共享受保护属性的相似数据集的实例并使用非参数谱聚类进行优化数据集分类。实验结果显示该方法可以有效地消除数据偏见。

Jun, 2023

无监督学习伪属性去偏表示

该论文提出了一种简单且有效的无监督去偏差技术，该方法利用聚类算法在特征嵌入空间识别伪属性，然后采用一种新颖的聚类加权重新调整方案来学习去偏置表示，以防止少数群体被忽视并达到最坏情况下的概括，实验证明其在多个标准基准测试数据集上具有出色的表现，甚至达到了有监督对照组的竞争精度。

Aug, 2021

通过迭代零空间投影来保护受保护属性

我们提出了一种名为迭代零空间投影 (INLP) 的新方法，它基于线性分类器的训练，通过在空间中进行映射，以消除神经表示中的特定属性，并减少了词嵌入中的偏见，提高了多类分类的公平性。

Apr, 2020