大型语言模型中的性别偏见和刻板印象
本论文研究了大型语言模型在职业决策过程中与性别刻板印象相关的行为,通过多轮问答的方式,探究和量化了性别刻板印象在语言模型行为中的存在,并测试了三种模型的偏好。发现所有模型都存在类似于人类偏见的性别刻板印象,但偏好不同,且 GPT-3.5-turbo 和 Llama2-70b-chat 的不同偏好可能意味着当前的对齐方法对消除偏见不足够,甚至可能引入与传统性别刻板印象相矛盾的新偏见。
May, 2024
通过开放式、用户真实案例实验设计和定量分析,本文调查了 LLMs 中的性别偏见与教育选择之间的关系,在四种不同的文化、语言和教育系统(英语 / 美国 / 英国,丹麦 / 丹麦,加泰罗尼亚 / 西班牙,印地语 / 印度)的背景下调查了性别偏见,研究发现在使用典型的男孩名字和女孩名字提示建议职业时,chatGPT 提供的建议教育路径中的 STEM 和非 STEM 的比例存在显著而大的差异,丹麦、西班牙和印度背景下的 STEM 建议较少,同时发现职业建议中的细微差异。
Jun, 2024
在伦理和公平的领域中,现代大型语言模型 (Large Language Models,LLMs) 在破解很多最先进的基准测试中表现出色,该研究主要探讨 LLMs 在受保护群体偏见方面的行为,发现 LLMs 存在对性别、性取向和西方文化的偏见,并且模型不仅反映了社会偏见,而且似乎放大了这些偏见。尽管该模型对涉及受保护群体的问题过于谨慎,强调多样性和公平,但这种人工限制潜在有害输出的做法本身可能会造成伤害,应该谨慎和有控制地应用。
Mar, 2024
本研究提出了一种基于因果中介分析的方法来追踪大型语言模型中不同组件激活的因果效应,并在此基础上提出了最小二乘去偏(LSDM)方法,用于减少职业代词中的性别偏见,实验结果表明 LSDM 方法比其他基线方法更有效地减少模型中的性别偏见,同时在其他方面完全保留了模型的能力。
Mar, 2024
我们研究了不同语言中大型语言模型生成的输出中的性别偏见,通过三项测量方法评估性别相关背景下选择描述性词语的性别偏见、选择性别相关代词(她 / 他)的性别偏见以及生成对话的主题的性别偏见。我们的研究表明,在我们调查的所有语言中都存在显著的性别偏见。
Mar, 2024
评估三种主要的大型语言模型(Claude 3 Opus、Mistral AI Large 和 Gemini 1.5 Flash)在科学摘要文本生成任务中的表现,发现尽管这些模型的生成文本通常与人类创作的内容非常相似,但在风格上存在显著的性别偏见,这研究强调了开发能够维持多样写作风格以促进学术交流包容性的重要性。
Jun, 2024
大语言模型可以生成具有偏见的回答。然而,先前的直接探测技术包含性别提及或预定义的性别刻板印象,这些很难全面收集。因此,我们提出了一种基于条件生成的间接探测框架,旨在诱使大语言模型揭示其性别偏见,即使没有显式的性别或刻板印象提及。我们探索了三种不同的策略来揭示大语言模型中的显式和隐式性别偏见。我们的实验证明,所有经过测试的大语言模型都表现出显式和 / 或隐式的性别偏见,即使输入中没有性别刻板印象。此外,模型大小的增加或模型对齐会放大大多数情况下的偏见。此外,我们通过超参数调整、指导性指导和去偏调整这三种方法来研究大语言模型中的偏见缓解。值得注意的是,即使没有显式的性别或刻板印象,这些方法也被证明是有效的。
Feb, 2024
通过分析工作推荐,揭示大型语言模型中的人口统计偏见。研究发现 LLMs 存在与不同人口统计身份相关的偏见,如 Mexican workers 普遍倾向于低薪工作,女性倾向于秘书角色。这突出了在后续应用中量化 LLMs 偏见的重要性,以了解可能造成的伤害和不公平结果。
Aug, 2023
大型语言模型 (LLMs) 在性别方面反映了社会规范和偏见。本文填补情绪分析中对于社会偏见的研究空白,首次对五种最先进的开源和闭源 LLM 进行了性别化情绪归因的全面研究,发现这些模型始终存在受到性别刻板印象影响的性别化情绪。
Mar, 2024
大型语言模型的性别偏见评估涉及大量预定义的性别相关短语和性别刻板印象,而这些短语和刻板印象的全面收集具有挑战性且限制于显性偏见评估。本文提出了一种无需预定义性别短语和刻板印象的条件文本生成机制,通过三种不同策略生成的三种类型的输入来检测大型语言模型中的显性和隐性性别偏见。我们还使用显性和隐性评估指标来评估不同策略下大型语言模型中的性别偏见。实验证明,模型规模的增加并不一定会提高公平性,所有测试的大型语言模型都表现出显性和 / 或隐性性别偏见,即使输入中没有显性性别刻板印象。
Nov, 2023