不要忘记代词：消除语言模型中的性别偏见，同时保留事实性别信息

Jun, 2022

不要忘记代词：消除语言模型中的性别偏见，同时保留事实性别信息

Don't Forget About Pronouns: Removing Gender Bias in Language Models Without Losing Factual Gender Information

Tomasz Limisiewicz, David Mareček

TL;DR本研究探讨大型语言模型中的性别信号，并重点关注英语文本中的两种信号类型：事实性性别信息和性别偏见，在保留事实性性别信号的同时试图减弱刻板印象。研究发现，可以通过过滤方法减少性别中立的专业名称的刻板印象，而不会对语言建模能力造成显着的恶化。这些发现可以应用于语言生成，以缓解对刻板印象的依赖同时保留性别一致的指代。

Abstract

The representations in large language models contain multiple types of gender information. We focus on two types of such signals in english texts: factual gender information, which is a grammatical or semantic pr

gender information english texts gender bias stereotypical bias language generation

发现论文，激发创造

消除信息检索模型中的性别偏见

研究通过引入性别缓解技术、使用预训练模型以及适配器网络，成功地减轻了性别偏见问题，并提高了信息检索的敏感性。

Aug, 2022

识别和减少单词级语言模型中的性别偏见

本研究以性别为例，用度量方法描述了文本语料中的社会问题偏差。提出了语言模型的正则化损失项以减少性别偏差，最终在多个语料库中验证了该方法的有效性。

Apr, 2019

预训练词嵌入的性别保持去偏置

该研究提出了一种针对 word embeddings 中性别偏见问题的去偏方法，通过保留与性别相关、非歧视性别信息的同时，去除预先训练好的 word embeddings 中的刻板性别歧视偏差，实验结果表明该方法在保留性别相关但非歧视性别信息的同时，能够更好地去偏，适用于一系列 benchmark 数据集和 NLP 应用。

Jun, 2019

偏见的诞生：一项关于英语语言模型中性别偏见演变的研究

研究发现使用 LSTM 架构训练的语言模型在表示性别时存在动态变化，并且性别信息逐渐局部化。通过监控训练动态，可以检测到女性和男性在输入嵌入中的表示不对称。去除偏见的策略如何应用需要更多深入探讨。

Jul, 2022

利用大型语言模型衡量性别化语言中的性别偏见

该论文介绍了一种利用大型语言模型对西班牙语语料库进行定量分析性别表达的新方法，通过识别和分类与人类实体相关的具有性别特征的名词和代词，揭示了四个广泛使用的基准数据集中存在的显著性别差异，从男性到女性的比例范围从 4:1 到 6:1，这些发现证明了我们方法在性别语言中进行偏见量化的价值，并建议在自然语言处理中应用该方法，为更公平的语言技术发展做出贡献。

Jun, 2024

大型语言模型中的性别偏见

我们研究了不同语言中大型语言模型生成的输出中的性别偏见，通过三项测量方法评估性别相关背景下选择描述性词语的性别偏见、选择性别相关代词（她 / 他）的性别偏见以及生成对话的主题的性别偏见。我们的研究表明，在我们调查的所有语言中都存在显著的性别偏见。

Mar, 2024

通过因果推断实现词嵌入：减少性别偏见并保留语义信息

通过提出一种基于因果推断框架的新方法来有效消除性别偏见，该方法可以在保留嵌入式语义信息的同时构建和分析性别信息流的复杂因果机制，从而在性别去偏任务中取得最新的技术结果。

Dec, 2021

预训练印度语言模型的高效性别去偏见

本文针对印度语言，量化职业中的性别偏见，并通过有效的微调方法减缓其中存在的偏见，以建立更公平的系统。

Sep, 2022

语法性别如何影响语法性别标记语言中名词表征？

考虑语言中的文法性别现象，本文研究其对词的表征的影响，并针对这种影响使用 “morphological analyzer” 对训练词嵌入进行上下文中性操作，以有效消除这种影响，结果显示其具有良好的效果和鲁棒性。

Oct, 2019

大型语言模型的上下文偏见抑制

大型语言模型（LLMs）中存在的性别偏见令人担忧，但提出了一种无需访问模型参数的新方法，即通过手动设计的文本前言和职业描述句来有效抑制性别偏见，并且对下游任务性能影响最小。

Sep, 2023