掩码语言模型预训练阶段性别偏见出现意外波动

Nov, 2022

掩码语言模型预训练阶段性别偏见出现意外波动

Gender Biases Unexpectedly Fluctuate in the Pre-training Stage of Masked Language Models

Kenan Tang, Hanchun Jiang

TL;DR掩蔽语言模型在预训练时会出现性别偏见。我们的研究表明，这些偏见不仅与模型架构和语料库有关，而且还与个别模板的基本层面存在严重波动，这一假设无效。此外，这些波动并不与预测的代词的确定性或预训练语料库中的职业频率相关。我们公开了代码和数据，以造福未来的研究。

Abstract

masked language models pick up gender biases during pre-training. Such biases are usually attributed to a certain model architecture and i

masked language models gender biases pre-training random seed individual templates

发现论文，激发创造

UnMASKed: 通过语言学知识的职业市场提示量化遮蔽语言模型中的性别偏见

该研究通过评估六个主要的语言模型（BERT，RoBERTa，DistilBERT，BERT-multilingual，XLM-RoBERTa 和 DistilBERT-multilingual）并采用包含鼓励模型生成英语主题代词和要求模型返回与性别代词相关的动词、副词和形容词概率的提示来调查遮蔽语言模型中固有的偏见，尤其是性别偏见。分析结果显示所有模型存在性别刻板印象，而多语言变体的偏见相对较小。

Jan, 2024

大型语言模型中选择偏差引起的虚假相关性

本文探究了大型语言模型在数据选择偏见下如何学习原本条件独立的变量之间的统计依赖关系。为了验证这个效果，我们创建了一个遮掩性别任务，可以应用于 BERT 系列模型来揭示预测性别代词与一系列似乎与性别无关的变量（如日期和位置）之间的虚假相关性，我们展示了预训练（未经修改的）BERT 和 RoBERTa 大型模型的效果，最后，我们提供了一项在线演示，邀请读者进一步实验。

Jul, 2022

偏见的诞生：一项关于英语语言模型中性别偏见演变的研究

研究发现使用 LSTM 架构训练的语言模型在表示性别时存在动态变化，并且性别信息逐渐局部化。通过监控训练动态，可以检测到女性和男性在输入嵌入中的表示不对称。去除偏见的策略如何应用需要更多深入探讨。

Jul, 2022

评估性别中性预训练视觉与语言模型的偏见和公平性

在这项研究中，我们以性别偏见为案例研究，通过量化预训练和微调对三类视觉与语言模型中的偏见放大进行分析，研究了这两个学习阶段之间的联系，并评估了偏见放大对模型性能的影响。总体来说，我们发现预训练和微调中的偏见放大是相互独立的。接着，我们研究了对性别中性数据的持续预训练对 VQAv2 和检索任务的影响，发现这种方法可以减少群体间的差异并提升公平性，而不会显著影响任务性能。

Oct, 2023

消除信息检索模型中的性别偏见

研究通过引入性别缓解技术、使用预训练模型以及适配器网络，成功地减轻了性别偏见问题，并提高了信息检索的敏感性。

Aug, 2022

大型语言模型中的性别偏见

我们研究了不同语言中大型语言模型生成的输出中的性别偏见，通过三项测量方法评估性别相关背景下选择描述性词语的性别偏见、选择性别相关代词（她 / 他）的性别偏见以及生成对话的主题的性别偏见。我们的研究表明，在我们调查的所有语言中都存在显著的性别偏见。

Mar, 2024

大型语言模型的上下文偏见抑制

大型语言模型（LLMs）中存在的性别偏见令人担忧，但提出了一种无需访问模型参数的新方法，即通过手动设计的文本前言和职业描述句来有效抑制性别偏见，并且对下游任务性能影响最小。

Sep, 2023

性别调整：强化预训练语言模型去偏见的微调

通过使用下游任务数据对预训练语言模型（PLMs）进行微调， Gender-tuning 方法能够消除 PLMs 中的性别偏见，同时提高 PLMs 在下游任务上的性能。

Jul, 2023

识别和减少单词级语言模型中的性别偏见

本研究以性别为例，用度量方法描述了文本语料中的社会问题偏差。提出了语言模型的正则化损失项以减少性别偏差，最终在多个语料库中验证了该方法的有效性。

Apr, 2019

预训练印度语言模型的高效性别去偏见

本文针对印度语言，量化职业中的性别偏见，并通过有效的微调方法减缓其中存在的偏见，以建立更公平的系统。

Sep, 2022