识别并调整英语语言模型中负责性别偏见的 Transformer 组件

Oct, 2023

识别并调整英语语言模型中负责性别偏见的 Transformer 组件

Identifying and Adapting Transformer-Components Responsible for Gender Bias in an English Language Model

Abhijith Chintam, Rahel Beloch, Willem Zuidema, Michael Hanna, Oskar van der Wal

TL;DR研究探讨了三种方法来识别语言模型组件与特定输出之间的因果关系，通过对 GPT-2 进行参数有效的微调，成功减轻性别偏见，同时对整体语言建模造成的损害较小。

Abstract

language models (LMs) exhibit and amplify many types of undesirable biases learned from the training data, including gender bias. However, we lack tools for effectively and efficiently changing this behavior with

language models bias causal relations gender bias fine-tuning

发现论文，激发创造

模型适应的去偏算法

提出了一种用于检测和减轻语言模型中性别偏见的新方法，通过因果分析确定了问题模型组件，发现中上部前馈层最容易传递偏见，根据分析结果通过线性投影来改进模型，该方法（DAMA）显著减少了偏见，并保持了模型在下游任务上的性能。

Oct, 2023

UnMASKed: 通过语言学知识的职业市场提示量化遮蔽语言模型中的性别偏见

该研究通过评估六个主要的语言模型（BERT，RoBERTa，DistilBERT，BERT-multilingual，XLM-RoBERTa 和 DistilBERT-multilingual）并采用包含鼓励模型生成英语主题代词和要求模型返回与性别代词相关的动词、副词和形容词概率的提示来调查遮蔽语言模型中固有的偏见，尤其是性别偏见。分析结果显示所有模型存在性别刻板印象，而多语言变体的偏见相对较小。

Jan, 2024

解读神经自然语言处理的因果中介分析：性别偏见案例

通过因果中介分析理论，我们提出了一种方法来解释神经模型语言处理中行为的成因，并使用此方法研究了预先训练的 Transformer 语言模型中性别偏差的机制。通过对个体神经元和注意力节点的分析，我们发现性别偏差效应分布稀疏，集中在网络的小部分，并且能被不同的中介子部件放大或抑制，同时也可以通过中介子的直接和间接影响进行分解。

Apr, 2020

BERT 和 DistilBERT 中导致性别偏见的结构研究

基于大型 Transformer 预训练语言模型（PLM）的研究已经改变了自然语言处理（NLP）领域，但这种性能提升伴随着复杂性的增加，以及模型规模的限制。本文通过对两个问题的实证研究探索了 BERT 和 DistilBERT 中性别偏见的神经机制和蒸馏过程对性别偏见的影响，发现无法确定特定的层次产生偏见，除少数特定情况外，每一个注意力头都均匀地编码偏见，而蒸馏模型则更均衡地产生偏见。

Jan, 2024

Transformer-Based 语言模型注意力头中的偏见分析

通过对注意力头的偏见分析框架，发现预训练语言模型中存在有偏头部，这有助于对模型公正性进行评估和指导有效减轻策略的开发。对 BERT 模型和 GPT 模型的性别和种族偏见进行了广泛的实验研究，进一步理解了预训练语言模型中的偏见行为。

Nov, 2023

在大型语言模型中定位和缓解性别偏见

本研究提出了一种基于因果中介分析的方法来追踪大型语言模型中不同组件激活的因果效应，并在此基础上提出了最小二乘去偏（LSDM）方法，用于减少职业代词中的性别偏见，实验结果表明 LSDM 方法比其他基线方法更有效地减少模型中的性别偏见，同时在其他方面完全保留了模型的能力。

Mar, 2024

LLMs 中性别偏见的揭示与减轻

大语言模型可以生成具有偏见的回答。然而，先前的直接探测技术包含性别提及或预定义的性别刻板印象，这些很难全面收集。因此，我们提出了一种基于条件生成的间接探测框架，旨在诱使大语言模型揭示其性别偏见，即使没有显式的性别或刻板印象提及。我们探索了三种不同的策略来揭示大语言模型中的显式和隐式性别偏见。我们的实验证明，所有经过测试的大语言模型都表现出显式和 / 或隐式的性别偏见，即使输入中没有性别刻板印象。此外，模型大小的增加或模型对齐会放大大多数情况下的偏见。此外，我们通过超参数调整、指导性指导和去偏调整这三种方法来研究大语言模型中的偏见缓解。值得注意的是，即使没有显式的性别或刻板印象，这些方法也被证明是有效的。

Feb, 2024

大型语言模型中的公平性偏差和去偏差之旅

这篇研究使用变换器语言模型研究了其训练数据所带来的偏见问题，并提出了一种去偏方法，得到的去偏模型在下游任务上保持了良好的表现。

May, 2023

大型语言模型中的性别偏见煽动与缓解之学习

自动检测大型语言模型（如 ChatGPT 和 GPT-4）潜在性别偏见的研究，提出了一种自动生成测试用例的方法，并通过这些测试用例来减轻模型偏见，从而实现更公正的回复。

Oct, 2023

性别调整：强化预训练语言模型去偏见的微调

通过使用下游任务数据对预训练语言模型（PLMs）进行微调， Gender-tuning 方法能够消除 PLMs 中的性别偏见，同时提高 PLMs 在下游任务上的性能。

Jul, 2023