大型语言模型在雇佣决策中是否基于种族、民族和性别进行歧视？

ACLJun, 2024

大型语言模型在雇佣决策中是否基于种族、民族和性别进行歧视？

Do Large Language Models Discriminate in Hiring Decisions on the Basis of Race, Ethnicity, and Gender?

Haozhe An, Christabel Acquaye, Colin Wang, Zongxia Li, Rachel Rudinger

TL;DR我们研究大型语言模型（LLMs）是否在招聘决策中表现出基于种族和性别的姓名歧视，类似社会科学中的经典研究结果（Bertrand 和 Mullainathan，2004 年）。通过为 LLMs 设计一系列模板提示，要求其给被命名的求职者写一封邮件，告知其招聘决定，我们通过操纵求职者的名字，衡量 LLLMS 生成接受或拒绝邮件的概率如何受到被认知的种族、民族和性别的影响。我们发现在许多情况下，LLLMS 的招聘决策更有可能倾向于白人申请者而不是西班牙裔申请者。总体而言，接受率最高和最低的群体分别是男性白人姓名和男性西班牙裔姓名。然而，在不同的模板设置下，各群体的接受率有所不同，这表明 LLLMS 对种族和性别的敏感性可能是独特的，并且受到模板提示的影响。

Abstract

We examine whether large language models (LLMs) exhibit race- and gender-based →

large language models name discrimination hiring decisions race gender

发现论文，激发创造

你得是医生，林”：对大型语言模型在就业推荐中基于姓名的偏见的研究

社会科学研究表明，具有表明特定种族或性别的姓名的候选人在就业实践中经常面临歧视。 similarly, 大型语言模型 (LLMs) 在各种应用中展示了种族和性别偏见。在本研究中，我们利用 GPT-3.5-Turbo 和 Llama 3-70B-Instruct 来模拟对具有 320 个姓氏强烈表示其种族和性别的候选人的招聘决策和薪水建议，覆盖了超过 750,000 个提示。我们的实证结果表明，这些模型偏好招聘白人女性名字听起来的候选人，并选择其他人口群体中的 40 个职业。此外，即使在具有相同资格的候选人中，薪水建议在不同子群体之间也会有高达 5% 的差异。与现实劳动力数据的比较显示，与美国劳动力市场特征不一致，凸显了对由 LLMs 驱动的系统的风险调查的必要性。

Jun, 2024

大型语言模型的机会不平等：透过职位推荐揭示人口偏见

通过分析工作推荐，揭示大型语言模型中的人口统计偏见。研究发现 LLMs 存在与不同人口统计身份相关的偏见，如 Mexican workers 普遍倾向于低薪工作，女性倾向于秘书角色。这突出了在后续应用中量化 LLMs 偏见的重要性，以了解可能造成的伤害和不公平结果。

Aug, 2023

大型语言模型中的性别偏见和刻板印象

通过对四个最近发表的大型语言模型进行测试，我们发现大型语言模型在性别刻板印象、职业偏见和句子结构等方面表现出偏见，它们更倾向于选择与性别刻板印象相关的职业，并且在提供自己选择的解释时常常存在事实错误，对于这些模型的偏见行为，我们需要谨慎测试以确保它们对待边缘化个体和社区是公平的。

Aug, 2023

探究 ChatGPT 时代算法招聘偏见：Emilly、Greg 是否比 Lakisha、Jamal 更具就业能力？

大型语言模型在算法招聘中的使用引发了与受保护属性（如性别、种族和孕期状态）的偏见问题。本研究基于开源的大型语言模型，在匹配简历与职位类别以及总结简历的两个任务上评估性别、种族、孕期状态和政治倾向的偏见。结果显示大型语言模型在种族和性别方面具有鲁棒性，但在孕期状态和政治倾向方面表现不同，通过对比输入解码方法揭示了潜在的偏见源。

Oct, 2023

與誰對齊？大型語言模型在主觀 NLP 任務中存在性別和種族偏見

人们对语言的认知取决于个人背景，如性别和种族。本研究利用包含不同人口背景注释的 POPQUORN 数据集，对四种常见的大型语言模型进行一系列实验，以调查它们理解群体差异和对礼貌和冒犯性的预测中的潜在偏见。结果发现，模型的预测更接近来自白人和女性参与者的标签。我们进一步探索了带有目标人口统计标签的提示，证明仅仅包含目标人口统计标签会削弱模型的性能。我们的结果表明，大型语言模型在主观性自然语言处理任务上存在性别和种族偏见，并且仅仅利用人口统计学提示可能无法消除这种影响。

Nov, 2023

大型语言模型评估：STEM 教育与性别刻板印象

通过开放式、用户真实案例实验设计和定量分析，本文调查了 LLMs 中的性别偏见与教育选择之间的关系，在四种不同的文化、语言和教育系统（英语 / 美国 / 英国，丹麦 / 丹麦，加泰罗尼亚 / 西班牙，印地语 / 印度）的背景下调查了性别偏见，研究发现在使用典型的男孩名字和女孩名字提示建议职业时，chatGPT 提供的建议教育路径中的 STEM 和非 STEM 的比例存在显著而大的差异，丹麦、西班牙和印度背景下的 STEM 建议较少，同时发现职业建议中的细微差异。

Jun, 2024

审计大型语言模型中的种族和性别偏见

我们利用审计设计研究了最先进的大型语言模型 (GPT-4) 中存在的偏见。通过在各种场景中向模型寻求建议，如在购车谈判或选举结果预测中，我们发现这些建议系统性地对与种族少数群体和女性有关联的名字不利。与黑人女性有关的名字获得的结果最不有利。这些偏见在 42 个模板和几个模型中的一致性表明这是一个系统性问题，而非孤立事件。虽然在提示中提供数量、决策相关的锚点可以成功抵消偏见，但定性细节的作用不一致，甚至可能加剧不平等。我们的发现强调了在 LLM 部署和实施过程中进行审计的重要性，以减轻其对边缘化社群的潜在伤害。

Feb, 2024

大型语言模型中的受保护群体偏见与刻板印象

在伦理和公平的领域中，现代大型语言模型 (Large Language Models，LLMs) 在破解很多最先进的基准测试中表现出色，该研究主要探讨 LLMs 在受保护群体偏见方面的行为，发现 LLMs 存在对性别、性取向和西方文化的偏见，并且模型不仅反映了社会偏见，而且似乎放大了这些偏见。尽管该模型对涉及受保护群体的问题过于谨慎，强调多样性和公平，但这种人工限制潜在有害输出的做法本身可能会造成伤害，应该谨慎和有控制地应用。

Mar, 2024

大型语言模型中固有的社会经济偏见理解

大型语言模型在关键决策过程中被广泛应用，但其中的固有偏见可能导致歧视性结果。本文研究了人口属性和经济偏见在大型语言模型中微妙的关系，这是一个重要但鲜为人知的公平性领域。我们提出了一个新的数据集，包含一百万个英文句子，以系统地量化各个人口群体之间的经济偏见。研究发现，无论是 GPT-2 等成熟模型还是 Llama 2 和 Falcon 等最新模型，都存在普遍的经济偏见。我们证明了在考虑交叉性别时，这些偏见被显著放大，大型语言模型具有从姓名中提取多个人口属性并将其与特定的经济偏见相关联的能力。这项研究突出了在关键实际应用中部署这些强大模型时，积极和强大的偏见缓解技术的紧迫性。

May, 2024

雇佣我还是不雇佣？考察语言模型对职业属性的行为

本论文研究了大型语言模型在职业决策过程中与性别刻板印象相关的行为，通过多轮问答的方式，探究和量化了性别刻板印象在语言模型行为中的存在，并测试了三种模型的偏好。发现所有模型都存在类似于人类偏见的性别刻板印象，但偏好不同，且 GPT-3.5-turbo 和 Llama2-70b-chat 的不同偏好可能意味着当前的对齐方法对消除偏见不足够，甚至可能引入与传统性别刻板印象相矛盾的新偏见。

May, 2024