利用少量数据干预减轻性别偏见的语言模型性别改造

ACLJun, 2023

利用少量数据干预减轻性别偏见的语言模型性别改造

Language Models Get a Gender Makeover: Mitigating Gender Bias with Few-Shot Data Interventions

Himanshu Thakur, Atishay Jain, Praneetha Vaddamanu, Paul Pu Liang, Louis-Philippe Morency

TL;DR本文提出了一种数据干预策略，通过在仅使用 10 个去偏见（干预）的训练样例上微调预训练模型，可显著降低优先考虑任何性别的趋势，从而减少预训练大型语言模型中的性别偏见，而且此方法的使用成本低，是一种高度可行且实用的少量训练样例去偏见方法。

Abstract

Societal biases present in pre-trained large language models are a critical issue as these models have been shown to propagate biases in countless downstream applications, rendering them unfair towards specific groups of people. Since large-scale retraining of these models from scratch is both time and compute-expensive, a variety of approaches have been pre

pre-trained models gender bias data intervention few-shot debiasing language modeling

发现论文，激发创造

消除信息检索模型中的性别偏见

研究通过引入性别缓解技术、使用预训练模型以及适配器网络，成功地减轻了性别偏见问题，并提高了信息检索的敏感性。

Aug, 2022

性别调整：强化预训练语言模型去偏见的微调

通过使用下游任务数据对预训练语言模型（PLMs）进行微调， Gender-tuning 方法能够消除 PLMs 中的性别偏见，同时提高 PLMs 在下游任务上的性能。

Jul, 2023

预训练印度语言模型的高效性别去偏见

本文针对印度语言，量化职业中的性别偏见，并通过有效的微调方法减缓其中存在的偏见，以建立更公平的系统。

Sep, 2022

去偏差化是否必然导致模型性能下降

本文提出了一个理论框架，解释了语言模型性别偏差的三个候选机制，发现大部分现有的去偏见方法会导致性能下降，但提出了一种不会降低模型性能的方法，即因果检测微调方法。通过数值实验证明，该方法能够在部分缓解性别偏差的同时避免性能下降。

Nov, 2022

大型语言模型的上下文偏见抑制

大型语言模型（LLMs）中存在的性别偏见令人担忧，但提出了一种无需访问模型参数的新方法，即通过手动设计的文本前言和职业描述句来有效抑制性别偏见，并且对下游任务性能影响最小。

Sep, 2023

去偏对于语言模型在下游任务中的影响被低估

通过使用包含女性、男性和刻板印象的单词的各种基准数据集，我们比较了去偏见对多个下游任务性能的影响，实验证明去偏见的影响在所有任务中都被一致地低估。此外，通过单独考虑包含女性、男性和刻板印象单词的实例，而不是所有实例，可以可靠地评估去偏见的影响。

Sep, 2023

AI 系统公平性：缓解语言视觉模型中的性别偏见

本研究尝试减轻语言视觉模型中的性别偏见问题，通过研究现有数据集中性别偏见的影响程度，并提出一种缓解方法。

May, 2023

针对预训练语言模型的少样本指令提示，用于检测社会偏见

提出了一种用于指示预训练语言模型检测社会偏见的 few-shot 方法，该方法用少量标记过的示例和定义的偏见作为指示提供给模型，大型语言模型的检测效果十分准确。

Dec, 2021

大型语言模型中的性别偏见煽动与缓解之学习

自动检测大型语言模型（如 ChatGPT 和 GPT-4）潜在性别偏见的研究，提出了一种自动生成测试用例的方法，并通过这些测试用例来减轻模型偏见，从而实现更公正的回复。

Oct, 2023

偏见的诞生：一项关于英语语言模型中性别偏见演变的研究

研究发现使用 LSTM 架构训练的语言模型在表示性别时存在动态变化，并且性别信息逐渐局部化。通过监控训练动态，可以检测到女性和男性在输入嵌入中的表示不对称。去除偏见的策略如何应用需要更多深入探讨。

Jul, 2022