與誰對齊？大型語言模型在主觀 NLP 任務中存在性別和種族偏見

Nov, 2023

與誰對齊？大型語言模型在主觀 NLP 任務中存在性別和種族偏見

Aligning with Whom? Large Language Models Have Gender and Racial Biases in Subjective NLP Tasks

Huaman Sun, Jiaxin Pei, Minje Choi, David Jurgens

TL;DR人们对语言的认知取决于个人背景，如性别和种族。本研究利用包含不同人口背景注释的 POPQUORN 数据集，对四种常见的大型语言模型进行一系列实验，以调查它们理解群体差异和对礼貌和冒犯性的预测中的潜在偏见。结果发现，模型的预测更接近来自白人和女性参与者的标签。我们进一步探索了带有目标人口统计标签的提示，证明仅仅包含目标人口统计标签会削弱模型的性能。我们的结果表明，大型语言模型在主观性自然语言处理任务上存在性别和种族偏见，并且仅仅利用人口统计学提示可能无法消除这种影响。

Abstract

Human perception of language depends on personal backgrounds like gender and ethnicity. While existing studies have shown that large language models (LLMs) hold values that are closer to certain societal groups,

perception language models biases nlp tasks prompts

发现论文，激发创造

大型语言模型中的性别偏见和刻板印象

通过对四个最近发表的大型语言模型进行测试，我们发现大型语言模型在性别刻板印象、职业偏见和句子结构等方面表现出偏见，它们更倾向于选择与性别刻板印象相关的职业，并且在提供自己选择的解释时常常存在事实错误，对于这些模型的偏见行为，我们需要谨慎测试以确保它们对待边缘化个体和社区是公平的。

Aug, 2023

大型语言模型的机会不平等：透过职位推荐揭示人口偏见

通过分析工作推荐，揭示大型语言模型中的人口统计偏见。研究发现 LLMs 存在与不同人口统计身份相关的偏见，如 Mexican workers 普遍倾向于低薪工作，女性倾向于秘书角色。这突出了在后续应用中量化 LLMs 偏见的重要性，以了解可能造成的伤害和不公平结果。

Aug, 2023

大型语言模型中的受保护群体偏见与刻板印象

在伦理和公平的领域中，现代大型语言模型 (Large Language Models，LLMs) 在破解很多最先进的基准测试中表现出色，该研究主要探讨 LLMs 在受保护群体偏见方面的行为，发现 LLMs 存在对性别、性取向和西方文化的偏见，并且模型不仅反映了社会偏见，而且似乎放大了这些偏见。尽管该模型对涉及受保护群体的问题过于谨慎，强调多样性和公平，但这种人工限制潜在有害输出的做法本身可能会造成伤害，应该谨慎和有控制地应用。

Mar, 2024

明示和隐示的大型语言模型角色生成意见，但无法复制更深层次的认知和偏见

通过以人类为模版的角色对大型语言模型进行提示和回答问题，我们研究了这种模型在主观注释任务和信念生成任务中的表现，结果显示大型语言模型在模拟已知的人类偏见方面存在不同的结果，但在表现隐含的偏见方面通常未能达到预期。我们得出结论，大型语言模型缺乏人类思维的内在认知机制，虽然能够捕获人们言语的统计模式，但在复杂社会科学应用中可能限制其效果。

Jun, 2024

大型语言模型中的性别偏见

我们研究了不同语言中大型语言模型生成的输出中的性别偏见，通过三项测量方法评估性别相关背景下选择描述性词语的性别偏见、选择性别相关代词（她 / 他）的性别偏见以及生成对话的主题的性别偏见。我们的研究表明，在我们调查的所有语言中都存在显著的性别偏见。

Mar, 2024

语言模型反映了谁的观点？

通过 OpinionsQA 数据集，本研究提出了一种量化框架，调查语言模型中体现的观点与美国 60 个人口群体的观点的一致性，在包括堕胎和自动化在内的话题上，我们发现当前的语言模型与 US 人口集体观点之间存在相当大的不匹配，即使是明确定向于特定人口群体也是如此。

Mar, 2023

评估大型语言模型中的性别和种族刻板印象

通过比较研究和建立评估框架，在专业环境中研究语言模型的两种偏见：性别和种族。我们发现，尽管较新的模型相比较老模型来说性别偏见大大减少，但种族偏见仍然存在。

Nov, 2023

重新评估语言模型中的偏倚检测：隐含规范的作用

大型语言模型的偏见在量化偏见时可能会导致模板式偏见探测的误导性影响。

Apr, 2024

大型语言模型在雇佣决策中是否基于种族、民族和性别进行歧视？

我们研究大型语言模型（LLMs）是否在招聘决策中表现出基于种族和性别的姓名歧视，类似社会科学中的经典研究结果（Bertrand 和 Mullainathan，2004 年）。通过为 LLMs 设计一系列模板提示，要求其给被命名的求职者写一封邮件，告知其招聘决定，我们通过操纵求职者的名字，衡量 LLLMS 生成接受或拒绝邮件的概率如何受到被认知的种族、民族和性别的影响。我们发现在许多情况下，LLLMS 的招聘决策更有可能倾向于白人申请者而不是西班牙裔申请者。总体而言，接受率最高和最低的群体分别是男性白人姓名和男性西班牙裔姓名。然而，在不同的模板设置下，各群体的接受率有所不同，这表明 LLLMS 对种族和性别的敏感性可能是独特的，并且受到模板提示的影响。

Jun, 2024

大型语言模型评估：STEM 教育与性别刻板印象

通过开放式、用户真实案例实验设计和定量分析，本文调查了 LLMs 中的性别偏见与教育选择之间的关系，在四种不同的文化、语言和教育系统（英语 / 美国 / 英国，丹麦 / 丹麦，加泰罗尼亚 / 西班牙，印地语 / 印度）的背景下调查了性别偏见，研究发现在使用典型的男孩名字和女孩名字提示建议职业时，chatGPT 提供的建议教育路径中的 STEM 和非 STEM 的比例存在显著而大的差异，丹麦、西班牙和印度背景下的 STEM 建议较少，同时发现职业建议中的细微差异。

Jun, 2024