识别和减少单词级语言模型中的性别偏见
该论文介绍了一种利用大型语言模型对西班牙语语料库进行定量分析性别表达的新方法,通过识别和分类与人类实体相关的具有性别特征的名词和代词,揭示了四个广泛使用的基准数据集中存在的显著性别差异,从男性到女性的比例范围从 4:1 到 6:1,这些发现证明了我们方法在性别语言中进行偏见量化的价值,并建议在自然语言处理中应用该方法,为更公平的语言技术发展做出贡献。
Jun, 2024
本研究提出一种基于损失函数修改的去偏见方法,旨在平衡输出中男性和女性单词的概率;通过使用一系列偏差评估指标,我们提供实证证据表明我们的方法成功地减轻了语言模型中的性别偏见。与现有的去偏见策略,数据扩充和单词嵌入去偏见相比,我们的方法在多个方面,特别是在减少职业单词中的性别偏见方面表现更好。最后,我们介绍了一种数据扩充和我们方法的组合,并展示它在所有偏差评估指标中表现出优于现有策略的效果。
May, 2019
研究发现使用 LSTM 架构训练的语言模型在表示性别时存在动态变化,并且性别信息逐渐局部化。通过监控训练动态,可以检测到女性和男性在输入嵌入中的表示不对称。去除偏见的策略如何应用需要更多深入探讨。
Jul, 2022
本研究探讨大型语言模型中的性别信号,并重点关注英语文本中的两种信号类型:事实性性别信息和性别偏见,在保留事实性性别信号的同时试图减弱刻板印象。研究发现,可以通过过滤方法减少性别中立的专业名称的刻板印象,而不会对语言建模能力造成显着的恶化。这些发现可以应用于语言生成,以缓解对刻板印象的依赖同时保留性别一致的指代。
Jun, 2022
本文研究了神经自然语言处理系统是否反映了训练数据中的历史偏见。通过定义量化神经自然语言处理任务中的性别偏见的基准测试,实证研究发现目前最先进的神经语言模型和基于基准数据集的循环神经网络在职业看待上存在显著的性别偏见。作者提出了一种基于因果干预的语料库增强通用方法,CDA,以减轻偏见而保留矫正前的准确性。作者发现 CDA 优于词嵌入去偏的先前方法,尤其是在词嵌入训练时;对于预先训练的嵌入,两种方法可以被有效地组合。作者还发现原始数据集在优化时会鼓励性别偏见增加;而 CDA 可以缓解这种行为。
Jul, 2018
本文研究滥用语言检测模型的偏见问题,通过使用不同的滥用语言数据集和预训练词嵌入和模型架构,分析性别偏见并尝试了三种减轻 偏见的方法:去偏向词嵌入、性别交换数据扩充以及使用更大的语料库进行微调。这些方法有效的降低了性别偏见 90-98%,并且可以扩展到解决其他情况下的偏见问题。
Aug, 2018
本论文提出了一个对自然语言文本中的性别偏见进行分解的通用框架,通过多维度的性别偏见分类器可以控制生成模型性别偏差的问题,检测任意文本中的性别偏见,并揭示与性别相关的冒犯性语言。
May, 2020
我们研究了不同语言中大型语言模型生成的输出中的性别偏见,通过三项测量方法评估性别相关背景下选择描述性词语的性别偏见、选择性别相关代词(她 / 他)的性别偏见以及生成对话的主题的性别偏见。我们的研究表明,在我们调查的所有语言中都存在显著的性别偏见。
Mar, 2024