大型语言模型中固有的社会经济偏见理解

May, 2024

大型语言模型中固有的社会经济偏见理解

Understanding Intrinsic Socioeconomic Biases in Large Language Models

Mina Arzaghi, Florian Carichon, Golnoosh Farnadi

TL;DR大型语言模型在关键决策过程中被广泛应用，但其中的固有偏见可能导致歧视性结果。本文研究了人口属性和经济偏见在大型语言模型中微妙的关系，这是一个重要但鲜为人知的公平性领域。我们提出了一个新的数据集，包含一百万个英文句子，以系统地量化各个人口群体之间的经济偏见。研究发现，无论是 GPT-2 等成熟模型还是 Llama 2 和 Falcon 等最新模型，都存在普遍的经济偏见。我们证明了在考虑交叉性别时，这些偏见被显著放大，大型语言模型具有从姓名中提取多个人口属性并将其与特定的经济偏见相关联的能力。这项研究突出了在关键实际应用中部署这些强大模型时，积极和强大的偏见缓解技术的紧迫性。

Abstract

large language models (LLMs) are increasingly integrated into critical decision-making processes, such as loan approvals and visa applications, where inherent biases can lead to discriminatory outcomes. In this paper, we examine the nuanced relationship between →

large language models socioeconomic biases demographic attributes fairness bias mitigation techniques

发现论文，激发创造

大型语言模型的机会不平等：透过职位推荐揭示人口偏见

通过分析工作推荐，揭示大型语言模型中的人口统计偏见。研究发现 LLMs 存在与不同人口统计身份相关的偏见，如 Mexican workers 普遍倾向于低薪工作，女性倾向于秘书角色。这突出了在后续应用中量化 LLMs 偏见的重要性，以了解可能造成的伤害和不公平结果。

Aug, 2023

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

大型语言模型公平性调研

大语言模型带来了强大的性能和发展前景，并广泛应用于现实世界。然而，这些模型可能从未经处理的训练数据中捕捉到社会偏见，并将其传播到下游任务。本文全面回顾了关于大语言模型中的公平性的相关研究，介绍了中等规模的模型和大规模的模型分别从内在偏见和外在偏见的角度引入了评估指标和去偏方法，并讨论了公平性发展中的挑战和未来方向。

Aug, 2023

探究 LLM 中更微妙的偏见：生成模型中的年龄歧视、美貌、机构和国籍偏见

通过使用模板生成的数据集，本文研究了 LLMs 在年龄和美貌等维度上的偏见，以及 LLMs 对特定社会群体的情感偏向。同时，我们报告了多个先进的 LLMs 找到的相关性，这个数据集可以用来评估更广泛的偏见，并且模板技术可用于在最小的人工注释下扩展该基准。

Sep, 2023

直接问 LLMs：“是什么塑造了你的偏见？”：评估大型语言模型中的社会偏见

社会偏见在大型语言模型中是由各种人口统计学特征的目标的社会感知的积累所塑造的。为了全面理解大型语言模型中的这种社会偏见，必须考虑到各种身份认同之间多元观点下的社会感知。本文旨在研究各种视角的社会感知如何影响大型语言模型中社会偏见的发展。为此，我们提出了一种直观量化这些社会感知的新策略，并提出了可以通过汇集多样化的社会感知评估大型语言模型中社会偏见的度量标准。实验结果通过检查社会感知定量地展示了大型语言模型中的社会态度。我们进行的分析表明，我们提出的度量标准捕捉到了社会偏见的多维方面，从而实现了对大型语言模型中偏见的细致全面的调查。

Jun, 2024

大型语言模型存在地理偏见

通过地理学角度研究大型语言模型的地理知识，展示其在地理空间预测中存在的问题性地理偏差，并 quantifies 目前大型语言模型的偏差程度。

Feb, 2024

大型语言模型中的性别偏见和刻板印象

通过对四个最近发表的大型语言模型进行测试，我们发现大型语言模型在性别刻板印象、职业偏见和句子结构等方面表现出偏见，它们更倾向于选择与性别刻板印象相关的职业，并且在提供自己选择的解释时常常存在事实错误，对于这些模型的偏见行为，我们需要谨慎测试以确保它们对待边缘化个体和社区是公平的。

Aug, 2023

探测大型语言模型中的未预料偏见

通过探索新的方法来检测大型语言模型中的潜在偏见，本研究聚焦于不确定性量化和可解释人工智能方法，旨在提高模型决策的透明性，以识别和理解不明显的偏见，从而为更加公平和透明的人工智能系统的发展做出贡献。

Apr, 2024

临床决策支持中 LLMs 应用的偏倚模式：一项综合研究

通过对八种流行的大型语言模型在三个临床病例描述数据集上进行严格评估和分析，我们发现这些模型在受保护群体之间存在各种不同程度的社会偏差，而大小模型并不一定比通用模型更具偏见，经过设计决策的提示方式对社会偏差也有影响，研究呼吁对在临床决策支持应用中使用的大型语言模型进行进一步评估、审查和改进。

Apr, 2024

探索并缓解语言模型中的社会偏见

为了提高语言模型的公正性，本文提出了多项定义并给出了新的测试和度量方式，旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明，该方法能够在文本生成中减少偏见同时保留重要的上下文信息。

Jun, 2021