偏见与反复无常:度量大型语言模型中的社会歧视的统计框架
社会偏见在大型语言模型中是由各种人口统计学特征的目标的社会感知的积累所塑造的。为了全面理解大型语言模型中的这种社会偏见,必须考虑到各种身份认同之间多元观点下的社会感知。本文旨在研究各种视角的社会感知如何影响大型语言模型中社会偏见的发展。为此,我们提出了一种直观量化这些社会感知的新策略,并提出了可以通过汇集多样化的社会感知评估大型语言模型中社会偏见的度量标准。实验结果通过检查社会感知定量地展示了大型语言模型中的社会态度。我们进行的分析表明,我们提出的度量标准捕捉到了社会偏见的多维方面,从而实现了对大型语言模型中偏见的细致全面的调查。
Jun, 2024
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
近期的研究表明,预训练的大型语言模型(LLMs)具有类似于人类观察到的认知结构,促使研究人员探究 LLMs 的认知方面。本文聚焦于心理学中的一个独特两级认知结构,即显性社会偏见和隐性社会偏见。我们提出了一个两阶段的方法,并在 LLMs 中发现了一个并行现象,即社会偏见中的 “重新判断不一致”。实验调查 ChatGPT 和 GPT-4 关于心理学中常见的性别偏见,证实了重新判断不一致的高度稳定性。这一发现可能表明,随着 LLMs 的能力增强,不同的认知结构也会出现。因此,利用心理学理论可以提供对 LLMs 中显性和隐性结构表达的潜在机制的深入洞察。
Aug, 2023
使用自然语言生成模型(LM)可能存在潜在的歧视风险,因此需要更好的方法来评估这些风险。本研究通过使用 LM 生成各种潜在的提示语句,并系统性地改变其中的人口统计信息,从而在各种社会决策场景中评估 LM 的潜在歧视影响。结果显示,在某些特定情况下,未进行干预的 Claude 2.0 模型存在积极和消极歧视的模式。通过有效的提示语句工程,我们展示了降低这些歧视的技术,为安全部署 LM 在适当的使用场景提供了路径。这一研究成果使开发人员和决策者能够在语言模型的能力和应用不断扩展的过程中预见、衡量和解决歧视问题。
Dec, 2023
本研究提出了一种新的框架,用于探索语言模型中的社会偏见,通过采集探索数据集和利用一种新的公平性评分方法,发现语言模型中的偏见更加复杂,并揭示不同宗教身份导致各种模型中最明显的不平等处理。
Nov, 2023
对大型语言模型的研究发现,它们往往存在社会偏见,尤其在印度和西方语境下,而引入一种称为 Instruction Prompting 的简单干预方法能够显著减少这种偏见。
Sep, 2023
通过心理学启发的 LLM 暗示联想测试偏差和 LLM 决策偏差等两项偏差测量方法,揭示了大规模语言模型中普遍存在的人类化刻板印象偏差,以及对决策任务中的微妙歧视进行检测。
Feb, 2024
本文综述了关于如何消除历史数据中偏见和歧视对预测模型造成的影响的研究,包括综述了各种可用于测量数据中歧视的方法和评估反歧视预测模型性能的措施,并提出了非歧视性预测建模的实践建议。
Oct, 2015
大型语言模型在关键决策过程中被广泛应用,但其中的固有偏见可能导致歧视性结果。本文研究了人口属性和经济偏见在大型语言模型中微妙的关系,这是一个重要但鲜为人知的公平性领域。我们提出了一个新的数据集,包含一百万个英文句子,以系统地量化各个人口群体之间的经济偏见。研究发现,无论是 GPT-2 等成熟模型还是 Llama 2 和 Falcon 等最新模型,都存在普遍的经济偏见。我们证明了在考虑交叉性别时,这些偏见被显著放大,大型语言模型具有从姓名中提取多个人口属性并将其与特定的经济偏见相关联的能力。这项研究突出了在关键实际应用中部署这些强大模型时,积极和强大的偏见缓解技术的紧迫性。
May, 2024
我们提出了一个名为 GPTBIAS 的偏见评估框架,它利用 LLMs 的高性能来评估模型的偏见,提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息,通过广泛的实验证明了该评估框架的有效性和可用性。
Dec, 2023