评估和减轻语言模型决策中的歧视

Dec, 2023

评估和减轻语言模型决策中的歧视

Evaluating and Mitigating Discrimination in Language Model Decisions

Alex Tamkin, Amanda Askell, Liane Lovitt, Esin Durmus, Nicholas Joseph...

TL;DR使用自然语言生成模型（LM）可能存在潜在的歧视风险，因此需要更好的方法来评估这些风险。本研究通过使用 LM 生成各种潜在的提示语句，并系统性地改变其中的人口统计信息，从而在各种社会决策场景中评估 LM 的潜在歧视影响。结果显示，在某些特定情况下，未进行干预的 Claude 2.0 模型存在积极和消极歧视的模式。通过有效的提示语句工程，我们展示了降低这些歧视的技术，为安全部署 LM 在适当的使用场景提供了路径。这一研究成果使开发人员和决策者能够在语言模型的能力和应用不断扩展的过程中预见、衡量和解决歧视问题。

Abstract

As language models (LMs) advance, interest is growing in applying them to high-stakes societal decisions, such as determining financing or housing eligibility. However, their potential for →

language models discrimination evaluation prompt engineering societal decisions

发现论文，激发创造

评估和缓解大型语言模型中的语言歧视

通过使用多种语言进行训练，大型语言模型（LLMs）通常具有多语言支持，并展示出在不同语言描述的任务中解决问题的显著能力。然而，由于在不同语言之间训练数据的不均衡分布，LLMs 可能表现出语言歧视，即面对相同任务但在不同语言中描述时，难以保持一致的响应。在本研究中，我们首先从安全性和质量两个方面探讨 LLMs 在对各种语言的查询产生的输出的一致性。我们使用两个数据集（AdvBench 和 NQ）对四个 LLMs（Llama2-13b、Gemma-7b、GPT-3.5-turbo 和 Gemini-pro）进行分析。结果显示，与孟加拉语、格鲁吉亚语、尼泊尔语和迈蒂利语的查询相比，LLMs 对英语、法语、俄语和西班牙语的查询表现出更强的人类对齐能力（平均有 1.04％的有害查询成功越狱）。此外，对于英语、丹麦语、捷克语和斯洛文尼亚语的查询，LLMs 倾向于产生具有更高质量的响应（平均 F1 得分为 0.1494），与其他语言相比。基于这些发现，我们提出了一种基于相似度的投票机制 LDFighter 来减轻 LLMs 中的语言歧视。LDFighter 确保为不同语言使用者提供一致的服务。我们使用良性查询和有害查询来评估 LDFighter。结果显示，LDFighter 不仅显著降低了成功越狱的概率，还平均改善了响应质量，证明了其有效性。

Apr, 2024

探索并缓解语言模型中的社会偏见

为了提高语言模型的公正性，本文提出了多项定义并给出了新的测试和度量方式，旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明，该方法能够在文本生成中减少偏见同时保留重要的上下文信息。

Jun, 2021

大型语言模型中固有的社会经济偏见理解

大型语言模型在关键决策过程中被广泛应用，但其中的固有偏见可能导致歧视性结果。本文研究了人口属性和经济偏见在大型语言模型中微妙的关系，这是一个重要但鲜为人知的公平性领域。我们提出了一个新的数据集，包含一百万个英文句子，以系统地量化各个人口群体之间的经济偏见。研究发现，无论是 GPT-2 等成熟模型还是 Llama 2 和 Falcon 等最新模型，都存在普遍的经济偏见。我们证明了在考虑交叉性别时，这些偏见被显著放大，大型语言模型具有从姓名中提取多个人口属性并将其与特定的经济偏见相关联的能力。这项研究突出了在关键实际应用中部署这些强大模型时，积极和强大的偏见缓解技术的紧迫性。

May, 2024

临床决策支持中 LLMs 应用的偏倚模式：一项综合研究

通过对八种流行的大型语言模型在三个临床病例描述数据集上进行严格评估和分析，我们发现这些模型在受保护群体之间存在各种不同程度的社会偏差，而大小模型并不一定比通用模型更具偏见，经过设计决策的提示方式对社会偏差也有影响，研究呼吁对在临床决策支持应用中使用的大型语言模型进行进一步评估、审查和改进。

Apr, 2024

大型语言模型的机会不平等：透过职位推荐揭示人口偏见

通过分析工作推荐，揭示大型语言模型中的人口统计偏见。研究发现 LLMs 存在与不同人口统计身份相关的偏见，如 Mexican workers 普遍倾向于低薪工作，女性倾向于秘书角色。这突出了在后续应用中量化 LLMs 偏见的重要性，以了解可能造成的伤害和不公平结果。

Aug, 2023

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

LLMs 的高风险决策中的认知偏差

我们介绍了 BiasBuster，这是一个旨在发现、评估和减轻大型语言模型中认知偏见的框架。通过在心理学和认知科学的前期研究基础上开发了一个包含 16,800 个提示的数据集，我们测试了各种减轻偏见的策略，并提出了一种使用大型语言模型来去偏置其自身提示的新方法。我们的分析提供了商业和开源模型中认知偏见存在及其影响的全面图片。我们证明了我们的自助去偏置方法能够有效减轻认知偏见，而无需为每种偏见类型手动制作示例。

Feb, 2024

大型语言模型在雇佣决策中是否基于种族、民族和性别进行歧视？

我们研究大型语言模型（LLMs）是否在招聘决策中表现出基于种族和性别的姓名歧视，类似社会科学中的经典研究结果（Bertrand 和 Mullainathan，2004 年）。通过为 LLMs 设计一系列模板提示，要求其给被命名的求职者写一封邮件，告知其招聘决定，我们通过操纵求职者的名字，衡量 LLLMS 生成接受或拒绝邮件的概率如何受到被认知的种族、民族和性别的影响。我们发现在许多情况下，LLLMS 的招聘决策更有可能倾向于白人申请者而不是西班牙裔申请者。总体而言，接受率最高和最低的群体分别是男性白人姓名和男性西班牙裔姓名。然而，在不同的模板设置下，各群体的接受率有所不同，这表明 LLLMS 对种族和性别的敏感性可能是独特的，并且受到模板提示的影响。

Jun, 2024

一个揭示大型语言模型中健康公平伤害和偏见的工具箱

用人工评估框架和数据集设计方法，对大型语言模型中的偏见进行评估，以实现促进公平可及的医疗保健的共同目标。

Mar, 2024

自由放任的危害：生成式语言模型中的算法偏差

通过开放式提示，我们发现模型产生的文本在描绘边缘群体的身份时存在错误、隐含和刻板印象的问题，这些问题可能导致心理伤害和认知能力下降。

Apr, 2024