预训练语言模型去偏差技术有效性的实证研究

ACLOct, 2021

预训练语言模型去偏差技术有效性的实证研究

An Empirical Survey of the Effectiveness of Debiasing Techniques for Pre-trained Language Models

Nicholas Meade, Elinor Poole-Dayan, Siva Reddy

TL;DR本文调查了五种最近提出的消除算法：CDA、Dropout、Iterative Nullspace Projection、Self-Debias 和 SentenceDebias 的有效性。实验结果显示，Self-Debias 是最有效的去偏置技术。但是现有去偏置技术在减轻非性别偏差方面表现不一致，同时算法会降低模型的语言建模能力，难以确定去偏置的效果。

Abstract

Recent work has shown pre-trained language models capture social biases from the large amounts of text they are trained on. This has attracted attention to developing techniques that mitigate such biases. In this

pre-trained language models social biases bias mitigation techniques intrinsic bias benchmarks nlu tasks

发现论文，激发创造

预训练语言模型去偏方法参数效率的实证分析

本文研究如何使用计算资源相对较小的方法，结合反事实数据增强技术（CDA）来减少预先训练的语言模型中的偏见，发现参数有效的方法能够有效地减少性别偏见，但对于种族和宗教偏见效果较差，且与全细调的性能相当。

Jun, 2023

去偏差化是否必然导致模型性能下降

本文提出了一个理论框架，解释了语言模型性别偏差的三个候选机制，发现大部分现有的去偏见方法会导致性能下降，但提出了一种不会降低模型性能的方法，即因果检测微调方法。通过数值实验证明，该方法能够在部分缓解性别偏差的同时避免性能下降。

Nov, 2022

基于模型的对抗生成器用于性别偏见缓解

通过使用数据处理技术和双目标训练方案，我们提出了一个基于模型的解决方案来生成对抗性样本以减轻性别偏见，并通过实证评估表明我们的模型减轻了基于词典的解决方案的缺点。

Nov, 2023

多语言模型中偏见的研究：解偏技术的跨语言转移

本文研究了多语言模型中去偏技术的可转移性。我们在英语、法语、德语和荷兰语中检验了这些技术的适用性。利用多语种 BERT（mBERT），我们证明了跨语言的去偏技术不仅可行，而且效果显著。令人惊讶的是，我们的发现表明，在应用这些技术于非英语语言时并不存在性能劣势。我们使用 CrowS-Pairs 数据集的翻译，分析结果表明 SentenceDebias 在不同语言之间是最佳技术，在 mBERT 中平均降低了 13% 的偏见。我们还发现，具有额外预训练的去偏技术在分析的语言中展现了跨语言效果的增强，特别是在低资源语言中。这些新的深入认识有助于对多语种语言模型中的偏见缓解有更深层次的理解，并提供了在不同语言环境中进行去偏技术的实践指导。

Oct, 2023

预训练语言模型中减轻性别偏见的投影方法

研究了将最简单的投影去偏方法应用于 BERT 内部表示时，对于缓解 BERT 在内部表示中的性别偏见和精调任务中的观察到的偏见至关重要，结果发现投影方法在内部偏差和下游偏差缓解方面都有效果，但两者并不一定相关。

Mar, 2024

去偏对于语言模型在下游任务中的影响被低估

通过使用包含女性、男性和刻板印象的单词的各种基准数据集，我们比较了去偏见对多个下游任务性能的影响，实验证明去偏见的影响在所有任务中都被一致地低估。此外，通过单独考虑包含女性、男性和刻板印象单词的实例，而不是所有实例，可以可靠地评估去偏见的影响。

Sep, 2023

利用少量数据干预减轻性别偏见的语言模型性别改造

本文提出了一种数据干预策略，通过在仅使用 10 个去偏见（干预）的训练样例上微调预训练模型，可显著降低优先考虑任何性别的趋势，从而减少预训练大型语言模型中的性别偏见，而且此方法的使用成本低，是一种高度可行且实用的少量训练样例去偏见方法。

Jun, 2023

自然语言理解中的去偏方法使得偏见更容易被接受

通过提出一种基于探究的框架，研究了自然语言理解中的偏见修正方法。结果表明，推迟偏见的方法会导致更多的偏见被编码到模型的内部表示中。

Sep, 2021

姓名决定性别：利用姓名为基础进行反事实数据替代以减轻性别偏见

研究使用计数因果数据增强（CDA）方法来消除单词嵌入中的性别偏见，使用了 CDA 改进方法和名字干预技术，发现 CDA 变种在消除直接性别偏见和绘制非偏性别类比任务上比传统的基于投影方法表现更好。CDA/S 是唯一一个能够减轻间接性别偏差：在去偏后，以前有偏见的单词根据性别聚集的情况显着减少，从而改善去偏的最新技术水平。

Sep, 2019

大型语言模型中的公平性偏差和去偏差之旅

这篇研究使用变换器语言模型研究了其训练数据所带来的偏见问题，并提出了一种去偏方法，得到的去偏模型在下游任务上保持了良好的表现。

May, 2023