探究 LLM 中更微妙的偏见:生成模型中的年龄歧视、美貌、机构和国籍偏见
大型语言模型在关键决策过程中被广泛应用,但其中的固有偏见可能导致歧视性结果。本文研究了人口属性和经济偏见在大型语言模型中微妙的关系,这是一个重要但鲜为人知的公平性领域。我们提出了一个新的数据集,包含一百万个英文句子,以系统地量化各个人口群体之间的经济偏见。研究发现,无论是 GPT-2 等成熟模型还是 Llama 2 和 Falcon 等最新模型,都存在普遍的经济偏见。我们证明了在考虑交叉性别时,这些偏见被显著放大,大型语言模型具有从姓名中提取多个人口属性并将其与特定的经济偏见相关联的能力。这项研究突出了在关键实际应用中部署这些强大模型时,积极和强大的偏见缓解技术的紧迫性。
May, 2024
在伦理和公平的领域中,现代大型语言模型 (Large Language Models,LLMs) 在破解很多最先进的基准测试中表现出色,该研究主要探讨 LLMs 在受保护群体偏见方面的行为,发现 LLMs 存在对性别、性取向和西方文化的偏见,并且模型不仅反映了社会偏见,而且似乎放大了这些偏见。尽管该模型对涉及受保护群体的问题过于谨慎,强调多样性和公平,但这种人工限制潜在有害输出的做法本身可能会造成伤害,应该谨慎和有控制地应用。
Mar, 2024
通过对四个最近发表的大型语言模型进行测试,我们发现大型语言模型在性别刻板印象、职业偏见和句子结构等方面表现出偏见,它们更倾向于选择与性别刻板印象相关的职业,并且在提供自己选择的解释时常常存在事实错误,对于这些模型的偏见行为,我们需要谨慎测试以确保它们对待边缘化个体和社区是公平的。
Aug, 2023
通过分析工作推荐,揭示大型语言模型中的人口统计偏见。研究发现 LLMs 存在与不同人口统计身份相关的偏见,如 Mexican workers 普遍倾向于低薪工作,女性倾向于秘书角色。这突出了在后续应用中量化 LLMs 偏见的重要性,以了解可能造成的伤害和不公平结果。
Aug, 2023
通过对八种流行的大型语言模型在三个临床病例描述数据集上进行严格评估和分析,我们发现这些模型在受保护群体之间存在各种不同程度的社会偏差,而大小模型并不一定比通用模型更具偏见,经过设计决策的提示方式对社会偏差也有影响,研究呼吁对在临床决策支持应用中使用的大型语言模型进行进一步评估、审查和改进。
Apr, 2024
人们对语言的认知取决于个人背景,如性别和种族。本研究利用包含不同人口背景注释的 POPQUORN 数据集,对四种常见的大型语言模型进行一系列实验,以调查它们理解群体差异和对礼貌和冒犯性的预测中的潜在偏见。结果发现,模型的预测更接近来自白人和女性参与者的标签。我们进一步探索了带有目标人口统计标签的提示,证明仅仅包含目标人口统计标签会削弱模型的性能。我们的结果表明,大型语言模型在主观性自然语言处理任务上存在性别和种族偏见,并且仅仅利用人口统计学提示可能无法消除这种影响。
Nov, 2023
大型语言模型(LLMs)嵌入了复杂的偏见和刻板印象,可能导致有害的用户体验和社会后果,而模型本身通常没有意识到这一点。本文强调了为 LLMs 配备更好的自我反思和偏见识别机制的重要性。我们的实验表明,通过告知 LLMs 它们生成的内容不代表自己的观点,并对其偏见进行质疑,可以提高 LLMs 识别和解决偏见的能力。这种改进归因于 LLMs 的内部注意力机制和潜在的内部敏感性政策。基于这些发现,我们提出了一个减少 LLMs 输出偏见的新方法。该方法涉及将 LLMs 置于多角色情景中,扮演不同角色,在每个辩论循环的最后担任公正裁判的角色,以暴露偏见。采用排名评分机制来量化偏见水平,从而实现更精细的反思和更优质的输出。比较实验结果证实我们的方法在减少偏见方面优于现有方法,为追求更具伦理 AI 系统的努力作出了有价值的贡献。
Apr, 2024
该研究探讨了大型语言模型中的性别偏见问题,特别关注 GPT-2 和 GPT-3.5 等多个语言模型之间的比较,通过对生成的文本进行全面的文献综述和定量分析,发现了性别化词汇关联、语言使用和偏见叙述的问题,并提出了减少性别偏见的算法和数据增强技术。该研究强调了学科间合作的重要性和社会学研究在减少 AI 模型性别偏见中的作用。
Jul, 2023
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
评估三种主要的大型语言模型(Claude 3 Opus、Mistral AI Large 和 Gemini 1.5 Flash)在科学摘要文本生成任务中的表现,发现尽管这些模型的生成文本通常与人类创作的内容非常相似,但在风格上存在显著的性别偏见,这研究强调了开发能够维持多样写作风格以促进学术交流包容性的重要性。
Jun, 2024