推理时规则擦除器：提取和移除偏见规则以减轻部署模型中的偏见

Apr, 2024

推理时规则擦除器：提取和移除偏见规则以减轻部署模型中的偏见

Inference-Time Rule Eraser: Distilling and Removing Bias Rules to Mitigate Bias in Deployed Models

Yi Zhang, Jitao Sang

TL;DR在高风险应用（如招聘和司法）中，公平对于人工智能系统至关重要。本文提出了一种更灵活的公平范式，即推断时间规则擦除器（Eraser），它考虑了无法访问模型权重的情况，从有偏见规则的移除角度解决公平问题。通过贝叶斯分析验证了修改模型输出以擦除有偏见规则的可行性，并通过推断时间规则擦除器从模型的逻辑输出中减去与不公平规则（即对有偏见特征的模型响应）相关的对数值来删除有偏见规则。此外，本文还提出了具体的规则擦除器实现，包括两个阶段：（1）在无法访问权重的模型上执行有限查询，以提取其有偏见规则并创建附加的修正模型；（2）在推断时间，根据规则擦除器中概述的移除策略，从原始模型的输出中排除已提取到修正模型中的有偏见规则。详尽的实验评估表明，所提出的规则擦除器在解决公平问题方面具有有效性和优越性能。

Abstract

fairness is critical for artificial intelligence systems, especially for those deployed in high-stakes applications such as hiring and justice. Existing efforts toward →

fairness artificial intelligence systems inference-time rule eraser biased rules experimental evaluation

发现论文，激发创造

关于在数据偏差下测试和比较公平分类器

本文针对注入数据偏差的理论模型，从理论和经验上研究了它对公平分类器准确性和公正性的影响，并证明了在重新加权偏差注入分布上最小化选择精心挑选的重加权损失可以恢复原始数据分布上的贝叶斯最优组感知公平分类器。通过广泛的实验，我们检查了标准公平工具包中的预处理公平分类器在训练数据注入不同程度的偏差时的公平性和准确性，并发现少量简单公平技术，如重新加权、指数梯度，在其训练数据注入欠代表性和标签偏差时也可以提供稳定的准确度和公平性保证。

Feb, 2023

利用因果推断和随机实验测量、解释和改善算法的公平性

本文利用因果推断和解释性机器学习的最新进展，提出了一种算法无关的框架 (MIIF)，用于测量、解释和改进算法决策的公平性。我们使用随机实验来测量算法偏差，从而能够同时测量不同对待、不同影响和经济价值。此外，利用现代解释性技术，我们开发了一个可解释的机器学习模型，准确解释和提炼黑盒算法的信念。总的来说，这些技术为研究算法公平性创造了一个简单而强大的工具集，特别适用于理解实际应用中公平性成本的电子商务和目标广告等领域，其中行业的 A/B 测试已经非常丰富。

Sep, 2023

来自带偏见数据的公平机器学习中的残留不公平

研究公平机器学习时，为达到公平，可以通过在不同群体之间平衡度量指标，并研究历史偏见对数据集的影响，然而在训练有偏倚策略的数据时，可能会导致调整后的预测器在目标人群中并不公平，从而引起剩余不公平。使用样本重新加权来估算和调整公平度量标准，以制定出更公平的机器学习算法。

Jun, 2018

通过平衡影响训练公平的深度神经网络

我们提出了一个名为 FAIRIF 的两阶段训练算法，它可以应用于一系列使用随机梯度下降训练的模型，并通过在小型验证集上计算样本权重来实现跨不同人口群体的模型性能平衡，从而缓解先前机器学习算法中存在的不公平问题。在合成数据集和实际数据集上的实验表明，FAIRIF 可以在牺牲很少的模型实用性的情况下实现更好的公平性 - 实用性权衡。

Jan, 2022

公平重编程

本文提出了一种名为 FairReprogram 的通用公平学习范式，旨在消除机器学习模型中存在的人口统计偏差问题，该方法通过在输入数据中追加多组扰动向量，使得机器学习模型无法准确获取输入数据的真实信息从而达到公平的目标。实验证明此方法显著有效，并且效果比现有的基于重新训练权值的方法要好。

Sep, 2022

面向公平性的对抗扰动：用于缓解部署的深度模型的偏差

文章提出了一种灵活的方法来提高人工智能系统的公平性，即针对不同族群的公正性问题，利用对抗性扰动来盲化输入数据中与公平性相关的特征，该方法有效且具有出色的性能。

Mar, 2022

挖掘可解释证据揭示不公平的模型

本文通过挖掘可解释证据，系统地解决了揭示不公平模型的新任务，找到高度可解释和实体证据以有效地揭示训练模型的不公平性。

Jul, 2022

在微调预训练模型中消除偏见以提升公平性和效率

通过引入一种有效且鲁棒的微调框架来解决在新任务上进行预训练模型微调可能导致不公平结果的问题，该框架中融合了权重重要性中和策略和矩阵因子分解技术，通过实验验证了其有效性。

Mar, 2024

FairLay-ML: 数据驱动型社会关键算法中不公平现象的直观解决方案

本文介绍了 FairLay-ML，一种结合了已有研究工具的图形用户界面，能够提供机器学习模型中不公平逻辑的直观解释，具有易于安装、提供实时黑盒解释和可执行的解决方案等特点。

Jul, 2023

机器学习中识别和纠正标签偏差

本文提出了一种数学公式来证明数据集中的偏见对分类器的影响，通过无需改变标签来重新计算数据点的值，从而得到一个无偏分类器，这种方法可以在各种机器学习算法中使用，并实现了公平分类的目标。

Jan, 2019