从《Showgirls》到《Performers》:用包容性的性别语言对LLMs中的偏见进行微调
本文调查了304篇关于自然语言处理中的性别偏见的论文,分析了社会科学中性别及其类别的定义,并将其与自然语言处理中性别偏见的正式定义联系起来,概述了应用于性别偏见研究的词汇和数据集,并比较和对比了检测和缓解性别偏见的方法。我们发现性别偏见研究存在四个核心限制,提出了解决这些限制的建议作为未来研究的指南。
Dec, 2021
该研究的主要贡献是,通过收集、注释和增强相关句子以促进检测英文文本中的性别偏见,公开提供已标记的数据集和详尽的词汇表,其中所包含的偏见子类型包括:通用他,通用她,明确标记性别和性别新词。同时,利用词嵌入模型进一步增强了所收集的词汇表。
Jan, 2022
研究发现使用 LSTM 架构训练的语言模型在表示性别时存在动态变化,并且性别信息逐渐局部化。通过监控训练动态,可以检测到女性和男性在输入嵌入中的表示不对称。去除偏见的策略如何应用需要更多深入探讨。
Jul, 2022
通过使用下游任务数据对预训练语言模型(PLMs)进行微调, Gender-tuning 方法能够消除PLMs中的性别偏见,同时提高PLMs在下游任务上的性能。
Jul, 2023
通过对四个最近发表的大型语言模型进行测试,我们发现大型语言模型在性别刻板印象、职业偏见和句子结构等方面表现出偏见,它们更倾向于选择与性别刻板印象相关的职业,并且在提供自己选择的解释时常常存在事实错误,对于这些模型的偏见行为,我们需要谨慎测试以确保它们对待边缘化个体和社区是公平的。
Aug, 2023
大型语言模型的性别偏见评估涉及大量预定义的性别相关短语和性别刻板印象,而这些短语和刻板印象的全面收集具有挑战性且限制于显性偏见评估。本文提出了一种无需预定义性别短语和刻板印象的条件文本生成机制,通过三种不同策略生成的三种类型的输入来检测大型语言模型中的显性和隐性性别偏见。我们还使用显性和隐性评估指标来评估不同策略下大型语言模型中的性别偏见。实验证明,模型规模的增加并不一定会提高公平性,所有测试的大型语言模型都表现出显性和/或隐性性别偏见,即使输入中没有显性性别刻板印象。
Nov, 2023
大语言模型可以生成具有偏见的回答。然而,先前的直接探测技术包含性别提及或预定义的性别刻板印象,这些很难全面收集。因此,我们提出了一种基于条件生成的间接探测框架,旨在诱使大语言模型揭示其性别偏见,即使没有显式的性别或刻板印象提及。我们探索了三种不同的策略来揭示大语言模型中的显式和隐式性别偏见。我们的实验证明,所有经过测试的大语言模型都表现出显式和/或隐式的性别偏见,即使输入中没有性别刻板印象。此外,模型大小的增加或模型对齐会放大大多数情况下的偏见。此外,我们通过超参数调整、指导性指导和去偏调整这三种方法来研究大语言模型中的偏见缓解。值得注意的是,即使没有显式的性别或刻板印象,这些方法也被证明是有效的。
Feb, 2024
我们研究了不同语言中大型语言模型生成的输出中的性别偏见,通过三项测量方法评估性别相关背景下选择描述性词语的性别偏见、选择性别相关代词(她/他)的性别偏见以及生成对话的主题的性别偏见。我们的研究表明,在我们调查的所有语言中都存在显著的性别偏见。
Mar, 2024
该论文介绍了一种利用大型语言模型对西班牙语语料库进行定量分析性别表达的新方法,通过识别和分类与人类实体相关的具有性别特征的名词和代词,揭示了四个广泛使用的基准数据集中存在的显著性别差异,从男性到女性的比例范围从4:1到6:1,这些发现证明了我们方法在性别语言中进行偏见量化的价值,并建议在自然语言处理中应用该方法,为更公平的语言技术发展做出贡献。
Jun, 2024
本研究针对大型语言模型(LLMs)在自然语言生成中放大性别相关社会偏见的问题,提出了GenderCARE框架,以构建灵活而全面的评估标准、偏见评估、减少技术及评估指标。研究表明,该框架能显著减少性别偏见,且在保持模型性能的同时,实现过90%的偏差降低,为实现LLMs的公平性和公正性提供了新的解决方案。
Aug, 2024