审计大型语言模型中的种族和性别偏见

Feb, 2024

审计大型语言模型中的种族和性别偏见

What's in a Name? Auditing Large Language Models for Race and Gender Bias

Amit Haim, Alejandro Salinas, Julian Nyarko

TL;DR我们利用审计设计研究了最先进的大型语言模型 (GPT-4) 中存在的偏见。通过在各种场景中向模型寻求建议，如在购车谈判或选举结果预测中，我们发现这些建议系统性地对与种族少数群体和女性有关联的名字不利。与黑人女性有关的名字获得的结果最不有利。这些偏见在 42 个模板和几个模型中的一致性表明这是一个系统性问题，而非孤立事件。虽然在提示中提供数量、决策相关的锚点可以成功抵消偏见，但定性细节的作用不一致，甚至可能加剧不平等。我们的发现强调了在 LLM 部署和实施过程中进行审计的重要性，以减轻其对边缘化社群的潜在伤害。

Abstract

We employ an audit design to investigate biases in state-of-the-art large language models, including GPT-4. In our study, we elicit prompt the models for advice regarding an individual across a variety of scenari

biases large language models racial minorities women audit design

发现论文，激发创造

大型语言模型在雇佣决策中是否基于种族、民族和性别进行歧视？

我们研究大型语言模型（LLMs）是否在招聘决策中表现出基于种族和性别的姓名歧视，类似社会科学中的经典研究结果（Bertrand 和 Mullainathan，2004 年）。通过为 LLMs 设计一系列模板提示，要求其给被命名的求职者写一封邮件，告知其招聘决定，我们通过操纵求职者的名字，衡量 LLLMS 生成接受或拒绝邮件的概率如何受到被认知的种族、民族和性别的影响。我们发现在许多情况下，LLLMS 的招聘决策更有可能倾向于白人申请者而不是西班牙裔申请者。总体而言，接受率最高和最低的群体分别是男性白人姓名和男性西班牙裔姓名。然而，在不同的模板设置下，各群体的接受率有所不同，这表明 LLLMS 对种族和性别的敏感性可能是独特的，并且受到模板提示的影响。

Jun, 2024

你得是医生，林”：对大型语言模型在就业推荐中基于姓名的偏见的研究

社会科学研究表明，具有表明特定种族或性别的姓名的候选人在就业实践中经常面临歧视。 similarly, 大型语言模型 (LLMs) 在各种应用中展示了种族和性别偏见。在本研究中，我们利用 GPT-3.5-Turbo 和 Llama 3-70B-Instruct 来模拟对具有 320 个姓氏强烈表示其种族和性别的候选人的招聘决策和薪水建议，覆盖了超过 750,000 个提示。我们的实证结果表明，这些模型偏好招聘白人女性名字听起来的候选人，并选择其他人口群体中的 40 个职业。此外，即使在具有相同资格的候选人中，薪水建议在不同子群体之间也会有高达 5% 的差异。与现实劳动力数据的比较显示，与美国劳动力市场特征不一致，凸显了对由 LLMs 驱动的系统的风险调查的必要性。

Jun, 2024

审计语言模型用于指导招聘决策

在大型语言模型中检测算法偏见的对应实验方法，发现适用于 K-12 教职申请的各种模型存在中等程度的种族和性别差异，但同时也存在一些重要的限制。

Apr, 2024

與誰對齊？大型語言模型在主觀 NLP 任務中存在性別和種族偏見

人们对语言的认知取决于个人背景，如性别和种族。本研究利用包含不同人口背景注释的 POPQUORN 数据集，对四种常见的大型语言模型进行一系列实验，以调查它们理解群体差异和对礼貌和冒犯性的预测中的潜在偏见。结果发现，模型的预测更接近来自白人和女性参与者的标签。我们进一步探索了带有目标人口统计标签的提示，证明仅仅包含目标人口统计标签会削弱模型的性能。我们的结果表明，大型语言模型在主观性自然语言处理任务上存在性别和种族偏见，并且仅仅利用人口统计学提示可能无法消除这种影响。

Nov, 2023

评估 LLMs 在著名人士中的性别差异

该研究评估了大型语言模型对获取事实信息的使用，特别研究了这些模型在回答问题时可能产生错误回答或完全拒绝回答的倾向，并重点调查了性别差异在模型回答中的存在。研究结果显示 GPT-3.5 生成的回答存在明显性别差异，尽管 GPT-4 的进展改善了性能，但并未完全消除这些性别差异，特别是在回答被拒绝的情况下。研究进一步探讨了提示中性别相关性和回答的同质性对这些差异的影响。

Mar, 2024

大型语言模型的机会不平等：透过职位推荐揭示人口偏见

通过分析工作推荐，揭示大型语言模型中的人口统计偏见。研究发现 LLMs 存在与不同人口统计身份相关的偏见，如 Mexican workers 普遍倾向于低薪工作，女性倾向于秘书角色。这突出了在后续应用中量化 LLMs 偏见的重要性，以了解可能造成的伤害和不公平结果。

Aug, 2023

揭示和量化大型语言模型在医学报告生成中的种族偏见

大型语言模型在医疗专业人员中具有潜力，但在训练过程中可能意外地继承偏见，可能会影响其在医学应用中的实用性。通过定性和定量分析，我们发现这些模型倾向于为白人群体投射更高的费用和较长的住院时间，并在具有更高生存率的具有挑战性的医疗场景中表现出乐观的态度。这些偏差在生成患者背景信息、将特定疾病与某种种族关联以及治疗建议的偏差等方面都有体现。我们的发现强调了未来研究在解决和减轻语言模型的偏见问题方面的关键需求，特别是关注关键的医疗应用，以确保公平和准确的结果对所有患者来说。

Jan, 2024

探测大型语言模型中的未预料偏见

通过探索新的方法来检测大型语言模型中的潜在偏见，本研究聚焦于不确定性量化和可解释人工智能方法，旨在提高模型决策的透明性，以识别和理解不明显的偏见，从而为更加公平和透明的人工智能系统的发展做出贡献。

Apr, 2024

评估大型语言模型中的性别和种族刻板印象

通过比较研究和建立评估框架，在专业环境中研究语言模型的两种偏见：性别和种族。我们发现，尽管较新的模型相比较老模型来说性别偏见大大减少，但种族偏见仍然存在。

Nov, 2023

重新评估语言模型中的偏倚检测：隐含规范的作用

大型语言模型的偏见在量化偏见时可能会导致模板式偏见探测的误导性影响。

Apr, 2024