揭示职业偏见：使用美国劳动数据的基础去偏见方法

Aug, 2024

揭示职业偏见：使用美国劳动数据的基础去偏见方法

Unboxing Occupational Bias: Grounded Debiasing of LLMs with U.S. Labor Data

Atmika Gorti, Manas Gaur, Aman Chadha

TL;DR本研究针对大型语言模型（LLMs）在性别、职业等敏感类别上固有的社会偏见问题，探讨了其与美国国家劳动统计局（NBLS）数据的关联。我们提出了一种简单有效的去偏见机制，通过直接利用NBLS实例来减轻LLMs中的偏见，并在七种不同的LLMs上进行实证研究，结果显示去偏见方法显著降低了偏见评分，促进了模型的公平性和可靠性。

Abstract

Large Language Models (LLMs) are prone to inheriting and amplifying societal biases embedded within their training data, potentially reinforcing harmful stereotypes related to gender, occupation, and other sensitive categories. This issue becomes particularly problematic as biased LLMs

发现论文，激发创造

大型语言模型的机会不平等：透过职位推荐揭示人口偏见

通过分析工作推荐, 揭示大型语言模型中的人口统计偏见。研究发现LLMs存在与不同人口统计身份相关的偏见，如Mexican workers普遍倾向于低薪工作，女性倾向于秘书角色。这突出了在后续应用中量化LLMs偏见的重要性，以了解可能造成的伤害和不公平结果。

Aug, 2023

大型语言模型中的性别偏见和刻板印象

通过对四个最近发表的大型语言模型进行测试，我们发现大型语言模型在性别刻板印象、职业偏见和句子结构等方面表现出偏见，它们更倾向于选择与性别刻板印象相关的职业，并且在提供自己选择的解释时常常存在事实错误，对于这些模型的偏见行为，我们需要谨慎测试以确保它们对待边缘化个体和社区是公平的。

Aug, 2023

量化少数社会群体中偏见的数据集注解挑战

最近人工智能方面的进展，包括高度复杂的大型语言模型（LLM）的发展，已在许多实际应用中证明其益处。然而，这些LLM中存在的固有偏见的证据引发了对公平性的担忧。作为回应，涉及偏见的研究增加了，包括量化偏见和开发去偏技术的研究。针对二元性别分类和道德/种族考虑，还开发了基准偏见数据集，主要关注美国人口统计信息。然而，在了解和量化与少数族裔社会有关的偏见方面几乎没有研究。受对用于量化少数族裔社会偏见的注释数据集缺乏的启发，我们努力为新西兰（NZ）人口创建基准数据集。然而，尽管有三名注释者的数据，我们在这个过程中面临了许多挑战。这项研究概述了手动注释过程，概述了我们遇到的挑战和所学到的教训，并提出了未来研究的建议。

Sep, 2023

驾驭LLMs朝向无偏响应: 一个因果引导的去偏框架

使用因果理解指导设计提示机制的去偏置语言模型框架，能有效减少大型语言模型中的社会偏见。

Mar, 2024

大型语言模型中的受保护群体偏见与刻板印象

在伦理和公平的领域中，现代大型语言模型(Large Language Models，LLMs)在破解很多最先进的基准测试中表现出色，该研究主要探讨LLMs在受保护群体偏见方面的行为，发现LLMs存在对性别、性取向和西方文化的偏见，并且模型不仅反映了社会偏见，而且似乎放大了这些偏见。尽管该模型对涉及受保护群体的问题过于谨慎，强调多样性和公平，但这种人工限制潜在有害输出的做法本身可能会造成伤害，应该谨慎和有控制地应用。

Mar, 2024

JobFair: 大规模语言模型中评估性别招聘偏见的框架

基于大型语言模型的层次性性别招聘偏见评估框架揭示了反向偏见和过度去偏见的重要问题。

Jun, 2024

解除职业偏见：利用美国劳动数据进行基础去偏见大语言模型

本研究针对大型语言模型在训练数据中固有的社会偏见，特别是性别和职业相关的偏见，进行探讨。研究提出了一种简单有效的去偏见机制，结合美国国家劳动统计局的数据，显著降低了偏见分数，展示了创建更公平可靠的语言模型的潜力。

Aug, 2024

大型语言模型中的偏见综合调查：现状与未来方向

本研究针对大型语言模型（LLMs）中的偏见问题进行全面调查，填补了当前研究中的空白。通过系统分类偏见的类型、来源和影响，并评估现有的缓解策略，本文提出了未来提升模型公平性和公正性的研究方向。研究结果为关注LLMs偏见的研究人员、从业者和政策制定者提供了重要资源。

Sep, 2024

评估大型语言模型中的性别、种族和年龄偏见：职业和犯罪场景的比较分析

本研究探讨了大型语言模型（LLMs）中存在的偏见问题，影响其可用性和公平性。通过分析2024年发布的四种领先LLMs在职业和犯罪场景中的性别、种族和年龄偏见，发现这些模型在职业场景中对女性角色的描绘偏差达37%，而在犯罪场景中性别、种族和年龄的偏差分别为54%、28%和17%。研究结果强调了当前偏见缓解技术的局限性，呼吁寻找更有效的方法。

Sep, 2024

多大型语言模型去偏见框架

该研究针对大型语言模型（LLMs）中存在的偏见问题，提出了一种新颖的多LLM去偏见框架。该框架引入了集中式和去中心化两种方法，显著减少了模型中的偏见，并在各社会群体中超越了基线方法，展现了良好的效果。

Sep, 2024