去偏差化是否必然导致模型性能下降

Nov, 2022

去偏差化是否必然导致模型性能下降

Does Debiasing Inevitably Degrade the Model Performance

Yiran Liu, Xiao Liu, Haotian Chen, Yang Yu

TL;DR本文提出了一个理论框架，解释了语言模型性别偏差的三个候选机制，发现大部分现有的去偏见方法会导致性能下降，但提出了一种不会降低模型性能的方法，即因果检测微调方法。通过数值实验证明，该方法能够在部分缓解性别偏差的同时避免性能下降。

Abstract

gender bias in language models has attracted sufficient attention because it threatens social justice. However, most of the current debiasing met

gender bias language models debiasing methods performance degradation causality-detection fine-tuning

发现论文，激发创造

去偏对于语言模型在下游任务中的影响被低估

通过使用包含女性、男性和刻板印象的单词的各种基准数据集，我们比较了去偏见对多个下游任务性能的影响，实验证明去偏见的影响在所有任务中都被一致地低估。此外，通过单独考虑包含女性、男性和刻板印象单词的实例，而不是所有实例，可以可靠地评估去偏见的影响。

Sep, 2023

通过因果中介分析研究去偏置方法带来的影响

本文以因果中介分析的方法来研究消除语言模型偏见的内部机制对下游任务毒性检测的影响，结果表明需要测试不同的偏见度量方法和关注模型中特定组件的行为变化，如语言模型的前两层和注意力头。

Jun, 2022

模型适应的去偏算法

提出了一种用于检测和减轻语言模型中性别偏见的新方法，通过因果分析确定了问题模型组件，发现中上部前馈层最容易传递偏见，根据分析结果通过线性投影来改进模型，该方法（DAMA）显著减少了偏见，并保持了模型在下游任务上的性能。

Oct, 2023

使用性别平等的损失函数减少单词级语言模型中的性别偏见

本研究提出一种基于损失函数修改的去偏见方法，旨在平衡输出中男性和女性单词的概率；通过使用一系列偏差评估指标，我们提供实证证据表明我们的方法成功地减轻了语言模型中的性别偏见。与现有的去偏见策略，数据扩充和单词嵌入去偏见相比，我们的方法在多个方面，特别是在减少职业单词中的性别偏见方面表现更好。最后，我们介绍了一种数据扩充和我们方法的组合，并展示它在所有偏差评估指标中表现出优于现有策略的效果。

May, 2019

利用少量数据干预减轻性别偏见的语言模型性别改造

本文提出了一种数据干预策略，通过在仅使用 10 个去偏见（干预）的训练样例上微调预训练模型，可显著降低优先考虑任何性别的趋势，从而减少预训练大型语言模型中的性别偏见，而且此方法的使用成本低，是一种高度可行且实用的少量训练样例去偏见方法。

Jun, 2023

消除信息检索模型中的性别偏见

研究通过引入性别缓解技术、使用预训练模型以及适配器网络，成功地减轻了性别偏见问题，并提高了信息检索的敏感性。

Aug, 2022

预训练语言模型去偏差技术有效性的实证研究

本文调查了五种最近提出的消除算法：CDA、Dropout、Iterative Nullspace Projection、Self-Debias 和 SentenceDebias 的有效性。实验结果显示，Self-Debias 是最有效的去偏置技术。但是现有去偏置技术在减轻非性别偏差方面表现不一致，同时算法会降低模型的语言建模能力，难以确定去偏置的效果。

Oct, 2021

性别去偏见对内部模型表示的影响及其重要性

本文研究证明了在下游任务中模型性能和模型内部表示中的内在偏差之间的关系，并通过外部微调去除偏差，同时测量内在偏差，以评估其消除效果。通过两个任务和多种偏差度量的实验证明了内在偏差指标是评估去偏差效果的更佳指标，可以暴露浅表去偏差的情况，提供了一种更全面的 NLP 模型偏差研究框架和相关常用工具和资源。

Apr, 2022

FineDeb: 为语言模型提供去偏置的框架

提出了一种两阶段的去偏置框架 FineDeb，用于语言模型中的人口统计子集偏差问题，在先前的语言模型学习嵌入之后开始，然后对语言建模目标进行微调，与其他方法相比，它提供了更强的去偏置效果。

Feb, 2023

性别调整：强化预训练语言模型去偏见的微调

通过使用下游任务数据对预训练语言模型（PLMs）进行微调， Gender-tuning 方法能够消除 PLMs 中的性别偏见，同时提高 PLMs 在下游任务上的性能。

Jul, 2023