简历筛选中的性别、种族及交叉偏见：基于语言模型的检索

Jul, 2024

简历筛选中的性别、种族及交叉偏见：基于语言模型的检索

Gender, Race, and Intersectional Bias in Resume Screening via Language Model Retrieval

Kyra Wilson, Aylin Caliskan

TL;DR本研究探讨了大语言模型在简历筛选中可能存在的偏见，针对性别和种族等受保护属性的影响进行分析。采用文档检索框架和大量真实简历与职位描述数据，研究发现简历筛选存在显著偏向白人和女性，同时针对黑人的偏见尤为严重。这些发现揭示了广泛应用的人工智能工具在招聘中的不公正性，对公平性和技术政策具有重要影响。

Abstract

Artificial Intelligence (AI) hiring tools have revolutionized Resume Screening, and large Language Models (LLMs) have the potential to do

发现论文，激发创造

深度学习自动简历筛选中的国籍歧视

本研究对深度学习方法在自动化简历筛选中的运用进行了探讨，发现由于深度学习模型基于历史数据学习概率分布，因此其所学的词向量存在刻板印象，可能会导致偏向或偏见，需要采取偏差缓解方法。

Jul, 2023

大型语言模型的机会不平等：透过职位推荐揭示人口偏见

通过分析工作推荐, 揭示大型语言模型中的人口统计偏见。研究发现LLMs存在与不同人口统计身份相关的偏见，如Mexican workers普遍倾向于低薪工作，女性倾向于秘书角色。这突出了在后续应用中量化LLMs偏见的重要性，以了解可能造成的伤害和不公平结果。

Aug, 2023

探究ChatGPT时代算法招聘偏见：Emilly、Greg是否比Lakisha、Jamal更具就业能力？

大型语言模型在算法招聘中的使用引发了与受保护属性（如性别、种族和孕期状态）的偏见问题。本研究基于开源的大型语言模型，在匹配简历与职位类别以及总结简历的两个任务上评估性别、种族、孕期状态和政治倾向的偏见。结果显示大型语言模型在种族和性别方面具有鲁棒性，但在孕期状态和政治倾向方面表现不同，通过对比输入解码方法揭示了潜在的偏见源。

Oct, 2023

审计语言模型用于指导招聘决策

在大型语言模型中检测算法偏见的对应实验方法，发现适用于 K-12 教职申请的各种模型存在中等程度的种族和性别差异，但同时也存在一些重要的限制。

Apr, 2024

雇佣我还是不雇佣？考察语言模型对职业属性的行为

本论文研究了大型语言模型在职业决策过程中与性别刻板印象相关的行为，通过多轮问答的方式，探究和量化了性别刻板印象在语言模型行为中的存在，并测试了三种模型的偏好。发现所有模型都存在类似于人类偏见的性别刻板印象，但偏好不同，且GPT-3.5-turbo和Llama2-70b-chat的不同偏好可能意味着当前的对齐方法对消除偏见不足够，甚至可能引入与传统性别刻板印象相矛盾的新偏见。

May, 2024

大型语言模型在雇佣决策中是否基于种族、民族和性别进行歧视？

我们研究大型语言模型（LLMs）是否在招聘决策中表现出基于种族和性别的姓名歧视，类似社会科学中的经典研究结果（Bertrand和Mullainathan，2004年）。通过为LLMs设计一系列模板提示，要求其给被命名的求职者写一封邮件，告知其招聘决定，我们通过操纵求职者的名字，衡量LLLMS生成接受或拒绝邮件的概率如何受到被认知的种族、民族和性别的影响。我们发现在许多情况下，LLLMS的招聘决策更有可能倾向于白人申请者而不是西班牙裔申请者。总体而言，接受率最高和最低的群体分别是男性白人姓名和男性西班牙裔姓名。然而，在不同的模板设置下，各群体的接受率有所不同，这表明LLLMS对种族和性别的敏感性可能是独特的，并且受到模板提示的影响。

Jun, 2024

你得是医生，林”：对大型语言模型在就业推荐中基于姓名的偏见的研究

社会科学研究表明，具有表明特定种族或性别的姓名的候选人在就业实践中经常面临歧视。 similarly, 大型语言模型 (LLMs) 在各种应用中展示了种族和性别偏见。在本研究中，我们利用 GPT-3.5-Turbo 和 Llama 3-70B-Instruct 来模拟对具有320个姓氏强烈表示其种族和性别的候选人的招聘决策和薪水建议，覆盖了超过750,000个提示。我们的实证结果表明，这些模型偏好招聘白人女性名字听起来的候选人，并选择其他人口群体中的40个职业。此外，即使在具有相同资格的候选人中，薪水建议在不同子群体之间也会有高达5%的差异。与现实劳动力数据的比较显示，与美国劳动力市场特征不一致，凸显了对由LLMs驱动的系统的风险调查的必要性。

Jun, 2024

JobFair: 大规模语言模型中评估性别招聘偏见的框架

基于大型语言模型的层次性性别招聘偏见评估框架揭示了反向偏见和过度去偏见的重要问题。

Jun, 2024

大型语言模型对医疗专业人员的偏见评估

评估大型语言模型对医疗专业人员存在的偏见，证实语言模型对特定住院医项目的招聘存在显性和隐性的性别和种族偏见，暴露了语言模型在医疗专业人才选拔中可能引发偏见并损害医疗人力资源多样性。

Jun, 2024

评估大型语言模型中的性别、种族和年龄偏见：职业和犯罪场景的比较分析

本研究探讨了大型语言模型（LLMs）中存在的偏见问题，影响其可用性和公平性。通过分析2024年发布的四种领先LLMs在职业和犯罪场景中的性别、种族和年龄偏见，发现这些模型在职业场景中对女性角色的描绘偏差达37%，而在犯罪场景中性别、种族和年龄的偏差分别为54%、28%和17%。研究结果强调了当前偏见缓解技术的局限性，呼吁寻找更有效的方法。

Sep, 2024