探究 LLM 中更微妙的偏见：生成模型中的年龄歧视、美貌、机构和国籍偏见

Sep, 2023

探究 LLM 中更微妙的偏见：生成模型中的年龄歧视、美貌、机构和国籍偏见

Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and Nationality Bias in Generative Models

Mahammed Kamruzzaman, Md. Minul Islam Shovon, Gene Louis Kim

TL;DR通过使用模板生成的数据集，本文研究了 LLMs 在年龄和美貌等维度上的偏见，以及 LLMs 对特定社会群体的情感偏向。同时，我们报告了多个先进的 LLMs 找到的相关性，这个数据集可以用来评估更广泛的偏见，并且模板技术可用于在最小的人工注释下扩展该基准。

Abstract

llms are increasingly powerful and widely used to assist users in a variety of tasks. This use risks the introduction of LLM biases to consequential decisions such as job hiring, human performance evaluation, and criminal sentencing. →

llms bias nlp systems age and beauty template-generated dataset

发现论文，激发创造

大型语言模型中固有的社会经济偏见理解

大型语言模型在关键决策过程中被广泛应用，但其中的固有偏见可能导致歧视性结果。本文研究了人口属性和经济偏见在大型语言模型中微妙的关系，这是一个重要但鲜为人知的公平性领域。我们提出了一个新的数据集，包含一百万个英文句子，以系统地量化各个人口群体之间的经济偏见。研究发现，无论是 GPT-2 等成熟模型还是 Llama 2 和 Falcon 等最新模型，都存在普遍的经济偏见。我们证明了在考虑交叉性别时，这些偏见被显著放大，大型语言模型具有从姓名中提取多个人口属性并将其与特定的经济偏见相关联的能力。这项研究突出了在关键实际应用中部署这些强大模型时，积极和强大的偏见缓解技术的紧迫性。

May, 2024

大型语言模型中的受保护群体偏见与刻板印象

在伦理和公平的领域中，现代大型语言模型 (Large Language Models，LLMs) 在破解很多最先进的基准测试中表现出色，该研究主要探讨 LLMs 在受保护群体偏见方面的行为，发现 LLMs 存在对性别、性取向和西方文化的偏见，并且模型不仅反映了社会偏见，而且似乎放大了这些偏见。尽管该模型对涉及受保护群体的问题过于谨慎，强调多样性和公平，但这种人工限制潜在有害输出的做法本身可能会造成伤害，应该谨慎和有控制地应用。

Mar, 2024

大型语言模型中的性别偏见和刻板印象

通过对四个最近发表的大型语言模型进行测试，我们发现大型语言模型在性别刻板印象、职业偏见和句子结构等方面表现出偏见，它们更倾向于选择与性别刻板印象相关的职业，并且在提供自己选择的解释时常常存在事实错误，对于这些模型的偏见行为，我们需要谨慎测试以确保它们对待边缘化个体和社区是公平的。

Aug, 2023

大型语言模型的机会不平等：透过职位推荐揭示人口偏见

通过分析工作推荐，揭示大型语言模型中的人口统计偏见。研究发现 LLMs 存在与不同人口统计身份相关的偏见，如 Mexican workers 普遍倾向于低薪工作，女性倾向于秘书角色。这突出了在后续应用中量化 LLMs 偏见的重要性，以了解可能造成的伤害和不公平结果。

Aug, 2023

临床决策支持中 LLMs 应用的偏倚模式：一项综合研究

通过对八种流行的大型语言模型在三个临床病例描述数据集上进行严格评估和分析，我们发现这些模型在受保护群体之间存在各种不同程度的社会偏差，而大小模型并不一定比通用模型更具偏见，经过设计决策的提示方式对社会偏差也有影响，研究呼吁对在临床决策支持应用中使用的大型语言模型进行进一步评估、审查和改进。

Apr, 2024

與誰對齊？大型語言模型在主觀 NLP 任務中存在性別和種族偏見

人们对语言的认知取决于个人背景，如性别和种族。本研究利用包含不同人口背景注释的 POPQUORN 数据集，对四种常见的大型语言模型进行一系列实验，以调查它们理解群体差异和对礼貌和冒犯性的预测中的潜在偏见。结果发现，模型的预测更接近来自白人和女性参与者的标签。我们进一步探索了带有目标人口统计标签的提示，证明仅仅包含目标人口统计标签会削弱模型的性能。我们的结果表明，大型语言模型在主观性自然语言处理任务上存在性别和种族偏见，并且仅仅利用人口统计学提示可能无法消除这种影响。

Nov, 2023

欺骗以启蒙：诱导 LLMs 自省以增强偏见检测和缓解

大型语言模型（LLMs）嵌入了复杂的偏见和刻板印象，可能导致有害的用户体验和社会后果，而模型本身通常没有意识到这一点。本文强调了为 LLMs 配备更好的自我反思和偏见识别机制的重要性。我们的实验表明，通过告知 LLMs 它们生成的内容不代表自己的观点，并对其偏见进行质疑，可以提高 LLMs 识别和解决偏见的能力。这种改进归因于 LLMs 的内部注意力机制和潜在的内部敏感性政策。基于这些发现，我们提出了一个减少 LLMs 输出偏见的新方法。该方法涉及将 LLMs 置于多角色情景中，扮演不同角色，在每个辩论循环的最后担任公正裁判的角色，以暴露偏见。采用排名评分机制来量化偏见水平，从而实现更精细的反思和更优质的输出。比较实验结果证实我们的方法在减少偏见方面优于现有方法，为追求更具伦理 AI 系统的努力作出了有价值的贡献。

Apr, 2024

揭示法学硕士职业领域中的性别偏见：分析与解决社会学意义

该研究探讨了大型语言模型中的性别偏见问题，特别关注 GPT-2 和 GPT-3.5 等多个语言模型之间的比较，通过对生成的文本进行全面的文献综述和定量分析，发现了性别化词汇关联、语言使用和偏见叙述的问题，并提出了减少性别偏见的算法和数据增强技术。该研究强调了学科间合作的重要性和社会学研究在减少 AI 模型性别偏见中的作用。

Jul, 2023

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

大型语言模型中的包容性：科学摘要中的个性特征和性别偏见

评估三种主要的大型语言模型（Claude 3 Opus、Mistral AI Large 和 Gemini 1.5 Flash）在科学摘要文本生成任务中的表现，发现尽管这些模型的生成文本通常与人类创作的内容非常相似，但在风格上存在显著的性别偏见，这研究强调了开发能够维持多样写作风格以促进学术交流包容性的重要性。

Jun, 2024