JobFair: 大规模语言模型中评估性别招聘偏见的框架
大型语言模型在算法招聘中的使用引发了与受保护属性(如性别、种族和孕期状态)的偏见问题。本研究基于开源的大型语言模型,在匹配简历与职位类别以及总结简历的两个任务上评估性别、种族、孕期状态和政治倾向的偏见。结果显示大型语言模型在种族和性别方面具有鲁棒性,但在孕期状态和政治倾向方面表现不同,通过对比输入解码方法揭示了潜在的偏见源。
Oct, 2023
通过分析工作推荐,揭示大型语言模型中的人口统计偏见。研究发现 LLMs 存在与不同人口统计身份相关的偏见,如 Mexican workers 普遍倾向于低薪工作,女性倾向于秘书角色。这突出了在后续应用中量化 LLMs 偏见的重要性,以了解可能造成的伤害和不公平结果。
Aug, 2023
通过对四个最近发表的大型语言模型进行测试,我们发现大型语言模型在性别刻板印象、职业偏见和句子结构等方面表现出偏见,它们更倾向于选择与性别刻板印象相关的职业,并且在提供自己选择的解释时常常存在事实错误,对于这些模型的偏见行为,我们需要谨慎测试以确保它们对待边缘化个体和社区是公平的。
Aug, 2023
大型语言模型的进展展示了在各个应用领域的强大能力,包括心理健康分析。然而,现有的研究着重于预测性能,对公平性这一关键问题的探讨不足,给弱势人群带来了重大风险。我们通过针对八个不同的心理健康数据集,使用十种不同的提示方法,系统地评估了七个社会因素的偏见。结果表明,GPT-4 在性能和公平性方面实现了最佳的平衡,尽管在某些情况下仍落后于领域特定模型如 MentalRoBERTa。此外,我们针对公平性进行调整的提示方法可以有效减轻在心理健康预测中的偏见,凸显了在该领域进行公平分析的巨大潜力。
Jun, 2024
本论文研究了大型语言模型在职业决策过程中与性别刻板印象相关的行为,通过多轮问答的方式,探究和量化了性别刻板印象在语言模型行为中的存在,并测试了三种模型的偏好。发现所有模型都存在类似于人类偏见的性别刻板印象,但偏好不同,且 GPT-3.5-turbo 和 Llama2-70b-chat 的不同偏好可能意味着当前的对齐方法对消除偏见不足够,甚至可能引入与传统性别刻板印象相矛盾的新偏见。
May, 2024
该研究探讨了大型语言模型中的性别偏见问题,特别关注 GPT-2 和 GPT-3.5 等多个语言模型之间的比较,通过对生成的文本进行全面的文献综述和定量分析,发现了性别化词汇关联、语言使用和偏见叙述的问题,并提出了减少性别偏见的算法和数据增强技术。该研究强调了学科间合作的重要性和社会学研究在减少 AI 模型性别偏见中的作用。
Jul, 2023
我们研究了不同语言中大型语言模型生成的输出中的性别偏见,通过三项测量方法评估性别相关背景下选择描述性词语的性别偏见、选择性别相关代词(她 / 他)的性别偏见以及生成对话的主题的性别偏见。我们的研究表明,在我们调查的所有语言中都存在显著的性别偏见。
Mar, 2024
这篇论文介绍了 GenderBias-VL 基准测试,通过使用反事实视觉问题评估 LVLMs 中与职业相关的性别偏见,以个体公平标准为基准。该基准测试包含 34,581 个视觉问题反事实对,涵盖了 177 个职业,发现现有的 LVLMs 普遍存在性别偏见。
Jun, 2024
大语言模型可以生成具有偏见的回答。然而,先前的直接探测技术包含性别提及或预定义的性别刻板印象,这些很难全面收集。因此,我们提出了一种基于条件生成的间接探测框架,旨在诱使大语言模型揭示其性别偏见,即使没有显式的性别或刻板印象提及。我们探索了三种不同的策略来揭示大语言模型中的显式和隐式性别偏见。我们的实验证明,所有经过测试的大语言模型都表现出显式和 / 或隐式的性别偏见,即使输入中没有性别刻板印象。此外,模型大小的增加或模型对齐会放大大多数情况下的偏见。此外,我们通过超参数调整、指导性指导和去偏调整这三种方法来研究大语言模型中的偏见缓解。值得注意的是,即使没有显式的性别或刻板印象,这些方法也被证明是有效的。
Feb, 2024
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023