快速模型去偏置与机器遗忘

NIPSOct, 2023

Fast Model Debias with Machine Unlearning

Ruizhe Chen, Jianfei Yang, Huimin Xiong, Jianhong Bai, Tianxiang Hu...

TL;DR最近的研究发现，深度神经网络在许多实际场景中可能表现出偏见。本研究提出了一种快速模型去偏方法（FMD），该方法通过显式的反事实概念识别偏见属性，并使用影响函数量化数据样本的影响，进而设计了一种基于机器遗忘的策略来高效有效地消除模型中的偏见。实验证明，与现有先进方法相比，我们的方法在达到更高或相当的准确性的同时，具有更少的偏见和更低的去偏成本要求。

Abstract

Recent discoveries have revealed that deep neural networks might behave in a biased manner in many real-world scenarios. For instance, deep networks trained on a large-scale face recognition dataset CelebA tend to predict blonde hair for females and black hair for males. Such

deep neural networks biases debiasing methods model debiasing framework influence functions

发现论文，激发创造

大型语言模型偏见缓解的知识编辑视角

通过对现有和附加的数据集进行系统评估公平性、特异性和泛化性的互补度量，本文首先建立了一个新的偏差缓解基准 BiasKE。同时，我们提出了一种新颖的偏差缓解方法 FAST，通过对个体偏见知识进行细粒度校准，实现可编辑的公平性。全面的实验证明，FAST 在保留知识的整体模型能力的同时，优于现有技术基线，具有显著的偏差缓解性能，突出了 LLM 中可编辑公平性的细粒度偏差缓解策略的前景。

May, 2024

透过公平的镜子：减少图像数据集中的偏差

本研究通过重构和最小化预期变量之间的统计相依来解决图像训练数据偏见的问题，使用包含 U-net 和预训练分类器的架构，将所提出的模型与最新的去偏见方法进行了对比，并展示了模型的公正性 - 准确性组合。

Sep, 2022

透过异常检测的视角观察模型去偏差化

通过异常检测方法，我们提出了一个新的偏差识别方法，结合偏差数据上采样和增强，实现了目前在合成和真实基准数据集上最先进的性能。我们证明了数据偏差问题并不一定需要复杂的去偏方法，只要定义一个准确的偏差识别过程即可。

Jul, 2024

使用反事实示例进行去偏机器学习

使用机器学习技术实施被遗忘权以减轻历史行为的持久影响，但经常忽视遗忘过程中的偏见问题。本文通过分析遗忘过程的因果因素，在数据和算法两个层面上减轻偏见，并通过引入干预方法和反事实例子指导遗忘过程，实现了更好的性能评估。

Apr, 2024

模型适应的去偏算法

提出了一种用于检测和减轻语言模型中性别偏见的新方法，通过因果分析确定了问题模型组件，发现中上部前馈层最容易传递偏见，根据分析结果通过线性投影来改进模型，该方法（DAMA）显著减少了偏见，并保持了模型在下游任务上的性能。

Oct, 2023

边际无偏网络用于公平视觉识别

本文提出了一种新颖的边际无偏网络 (MDN) 来学习无偏表示，通过引入边际惩罚的思想设计了边际 softmax 损失 (MSL)，为解决公平性问题而优化 MDN，并通过元学习框架自适应更新边际参数，实现了在各种数据集上实验表明我们的 MDN 在少数人群样本上取得了显著的性能，并在对抗先前方法时获得更好的无偏结果。

Jan, 2024

DeNetDM：通过网络深度调节降低偏差

当神经网络在偏见数据集上训练时，它们往往会无意中学习到具有偏见的相关性，从而在实现强大的泛化和鲁棒性方面面临挑战。我们介绍了一种新颖的去偏见方法 DeNetDM，它基于浅层和深层网络的不同属性，使用基于专家产品的训练范例创建出带有偏见和去偏见架构的模型，并通过模型转移来生成目标去偏模型。大量实验证明我们的方法优于当前的去偏方法，在三个数据集上取得了约 5% 的明显改进，这些数据集包括合成数据和真实世界数据。DeNetDM 无需偏见标签或偏见类型的注释，仍然能够与有监督的对照模型表现相当。此外，我们的方法有效利用了数据中具有偏见冲突的多样性点，超越了以前的方法，避免了需要显式增强多样性的数据增强方法。该研究的源代码将在接受后提供。

Mar, 2024

移除偏见数据以提高公平性和准确性

提出了一种黑盒子方法，用于识别和消除具有偏见的训练数据，以减少机器学习所带来的偏见，此方法在实验中显示出比之前的方法更佳的个体歧视和准确性表现。

Feb, 2021

视觉和语言研究中实现更公平的神经模型的去偏置方法：一份调查报告

在电脑视觉和自然语言处理领域中，神经网络虽然能够取得最新成果，但是其存在数据内的建模偏见，导致人工智能领域出现了公平性的研究方向，其目的为了纠正算法偏见，提出了几种基于公平性的神经网络去偏置的方法。

Nov, 2022

透过 AdapterFusion 实现参数高效，模块化的偏置缓解

本研究提出了一种名为 DAM 的去偏见方法，通过 Adapter 模块的集成，实现去偏见的独立功能，该方法在三个分类任务中，具有效性、增加了公平性、同时保持了核心模型的效能。

Feb, 2023