大型语言模型中的受保护群体偏见与刻板印象

Mar, 2024

大型语言模型中的受保护群体偏见与刻板印象

Protected group bias and stereotypes in Large Language Models

Hadas Kotek, David Q. Sun, Zidi Xiu, Margit Bowler, Christopher Klein

TL;DR在伦理和公平的领域中，现代大型语言模型(Large Language Models，LLMs)在破解很多最先进的基准测试中表现出色，该研究主要探讨LLMs在受保护群体偏见方面的行为，发现LLMs存在对性别、性取向和西方文化的偏见，并且模型不仅反映了社会偏见，而且似乎放大了这些偏见。尽管该模型对涉及受保护群体的问题过于谨慎，强调多样性和公平，但这种人工限制潜在有害输出的做法本身可能会造成伤害，应该谨慎和有控制地应用。

Abstract

As modern large language models (LLMs) shatter many state-of-the-art benchmarks in a variety of domains, this paper investigates their behavior in the domains of ethics and →

发现论文，激发创造

在交叉背景下评估语言模型的偏见态度关联

利用上下文词嵌入的概念投射方法，量化了英语语言模型中社会群体的情感倾向，发现语言模型对性别认同、社会阶级和性取向的信号表现出最有偏见的态度，此方法旨在研究语言模型中的历史偏见，并对设计正义做出贡献，探讨了在语言中被边缘化的群体的相关关系。

Jul, 2023

大型语言模型的机会不平等：透过职位推荐揭示人口偏见

通过分析工作推荐, 揭示大型语言模型中的人口统计偏见。研究发现LLMs存在与不同人口统计身份相关的偏见，如Mexican workers普遍倾向于低薪工作，女性倾向于秘书角色。这突出了在后续应用中量化LLMs偏见的重要性，以了解可能造成的伤害和不公平结果。

Aug, 2023

大型语言模型中的性别偏见和刻板印象

通过对四个最近发表的大型语言模型进行测试，我们发现大型语言模型在性别刻板印象、职业偏见和句子结构等方面表现出偏见，它们更倾向于选择与性别刻板印象相关的职业，并且在提供自己选择的解释时常常存在事实错误，对于这些模型的偏见行为，我们需要谨慎测试以确保它们对待边缘化个体和社区是公平的。

Aug, 2023

社会偏见探测：语言模型的公平性基准测试

本研究提出了一种新的框架，用于探索语言模型中的社会偏见，通过采集探索数据集和利用一种新的公平性评分方法，发现语言模型中的偏见更加复杂，并揭示不同宗教身份导致各种模型中最明显的不平等处理。

Nov, 2023

大规模语言模型的团体公平透视

通过使用划分群体公平性的全新层次模式，我们提出了对大型语言模型进行偏见评估的方法，并构建了一个跨多个维度的目标属性组合的数据集，GFair。此外，我们还引入了一项新的开放式文本生成任务来揭示大型语言模型中的复杂偏见。通过对流行的大型语言模型进行广泛评估，我们发现存在固有的安全问题。为了从群体公平性的角度减轻大型语言模型的偏见，我们首创了一种新的思维链(GF-Think)方法。实验结果表明，此方法在减轻大型语言模型中的偏见以实现公平性方面非常有效。

Dec, 2023

偏见与反复无常：度量大型语言模型中的社会歧视的统计框架

通过考虑大型语言模型的持久偏见和生成不一致性，我们在本文中提出了偏见-反复性框架（PCF），从而全面测量LLMs中的歧视行为。我们对12个常见LLMs应用我们的歧视测量框架，发现现代LLMs存在显著的男性偏见，并且LLMs的歧视行为与多个社会和经济因素相关。

Feb, 2024

揭示LLM生成的对话中的隐蔽伤害和社会威胁

评估LLMs生成的对话中的隐蔽伤害时发现，七种LLMs表现出了一些恶意观点，特别是在涉及到种姓等非西方概念时更为明显，且用一种看似中立的语言表达，容易逃过现有方法的检测。

May, 2024

直接问LLMs：“是什么塑造了你的偏见？”：评估大型语言模型中的社会偏见

社会偏见在大型语言模型中是由各种人口统计学特征的目标的社会感知的积累所塑造的。为了全面理解大型语言模型中的这种社会偏见，必须考虑到各种身份认同之间多元观点下的社会感知。本文旨在研究各种视角的社会感知如何影响大型语言模型中社会偏见的发展。为此，我们提出了一种直观量化这些社会感知的新策略，并提出了可以通过汇集多样化的社会感知评估大型语言模型中社会偏见的度量标准。实验结果通过检查社会感知定量地展示了大型语言模型中的社会态度。我们进行的分析表明，我们提出的度量标准捕捉到了社会偏见的多维方面，从而实现了对大型语言模型中偏见的细致全面的调查。

Jun, 2024

评估大型语言模型中的性别、种族和年龄偏见：职业和犯罪场景的比较分析

本研究探讨了大型语言模型（LLMs）中存在的偏见问题，影响其可用性和公平性。通过分析2024年发布的四种领先LLMs在职业和犯罪场景中的性别、种族和年龄偏见，发现这些模型在职业场景中对女性角色的描绘偏差达37%，而在犯罪场景中性别、种族和年龄的偏差分别为54%、28%和17%。研究结果强调了当前偏见缓解技术的局限性，呼吁寻找更有效的方法。

Sep, 2024

用一粒盐：大型语言模型在社会维度上的公平性研究

本研究分析了开源大型语言模型（LLMs）在性别、宗教和种族上的偏见，填补了现有研究在偏见检测方法上的空白。采用七种偏见触发器生成偏见检测数据集，并通过对比分析不同模型的产生的文本偏见，发现LLMs在不同群体间表现出强烈的极化现象，而语言的切换则引发了各种变异与异常，揭示了文化和语境对偏见表现的影响。

Oct, 2024