消除偏见，建立桥梁：通过接触假设评估和缓解 LMM 中的社会偏见

Jul, 2024

消除偏见，建立桥梁：通过接触假设评估和缓解 LMM 中的社会偏见

Breaking Bias, Building Bridges: Evaluation and Mitigation of Social Biases in LLMs via Contact Hypothesis

Chahat Raj, Anjishnu Mukherjee, Aylin Caliskan, Antonios Anastasopoulos, Ziwei Zhu

TL;DR大型语言模型（LLMs）持续存在社会偏见，反映其训练数据中的偏见，并加强社会刻板印象和不平等现象。我们的研究探讨了社会心理学概念中的接触假设在消除 LLMs 偏见方面的潜在潜力。通过对 LLMs 进行各种形式的社会接触模拟，以测量其对模型偏见的影响，反映了群体间互动如何在社会环境中减少偏见。我们使用一种有原则的方法创建了一个包含 108,000 个提示的数据集，用于复制社会接触以测量三个 LLMs（LLaMA 2，Tulu 和 NousHermes）在 13 个社会偏见维度上的偏见。我们提出了一种独特的去偏思路，即社会接触去偏（SCD），通过对提问的无偏回复进行指导调整这些模型。我们的研究表明，当 LLMs 经过接触探测时，其回答存在社会偏见，但更重要的是，经过我们的 SCD 策略后，LLaMA 2 的指令调整可以将这些偏见显著减少 40%。我们的代码和数据可在此 URL 上获得。

Abstract

large language models (LLMs) perpetuate social biases, reflecting prejudices in their training data and reinforcing societal stereotypes and inequalities. Our work explores the potential of the →

large language models social biases contact hypothesis debiasing social contact debiasing

发现论文，激发创造

直接问 LLMs：“是什么塑造了你的偏见？”：评估大型语言模型中的社会偏见

社会偏见在大型语言模型中是由各种人口统计学特征的目标的社会感知的积累所塑造的。为了全面理解大型语言模型中的这种社会偏见，必须考虑到各种身份认同之间多元观点下的社会感知。本文旨在研究各种视角的社会感知如何影响大型语言模型中社会偏见的发展。为此，我们提出了一种直观量化这些社会感知的新策略，并提出了可以通过汇集多样化的社会感知评估大型语言模型中社会偏见的度量标准。实验结果通过检查社会感知定量地展示了大型语言模型中的社会态度。我们进行的分析表明，我们提出的度量标准捕捉到了社会偏见的多维方面，从而实现了对大型语言模型中偏见的细致全面的调查。

Jun, 2024

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

驾驭 LLMs 朝向无偏响应：一个因果引导的去偏框架

使用因果理解指导设计提示机制的去偏置语言模型框架，能有效减少大型语言模型中的社会偏见。

Mar, 2024

大型语言模型的社会偏见评估需求提示变化

本研究探讨了大型语言模型（LLMs）在不同提示变化下对任务表现和社会偏见的敏感性，发现 LLMs 对提示的敏感程度很高，可能导致在任务表现和社会偏见方面的模型排名波动。此外，在优化社会偏见和任务表现之间存在权衡，而高级 LLMs 的示例模糊性是导致对提示敏感性的原因之一。因此，建议使用多样化的提示来比较提示对 LLMs 社会偏见的影响。

Jul, 2024

LLMs 的高风险决策中的认知偏差

我们介绍了 BiasBuster，这是一个旨在发现、评估和减轻大型语言模型中认知偏见的框架。通过在心理学和认知科学的前期研究基础上开发了一个包含 16,800 个提示的数据集，我们测试了各种减轻偏见的策略，并提出了一种使用大型语言模型来去偏置其自身提示的新方法。我们的分析提供了商业和开源模型中认知偏见存在及其影响的全面图片。我们证明了我们的自助去偏置方法能够有效减轻认知偏见，而无需为每种偏见类型手动制作示例。

Feb, 2024

欺骗以启蒙：诱导 LLMs 自省以增强偏见检测和缓解

大型语言模型（LLMs）嵌入了复杂的偏见和刻板印象，可能导致有害的用户体验和社会后果，而模型本身通常没有意识到这一点。本文强调了为 LLMs 配备更好的自我反思和偏见识别机制的重要性。我们的实验表明，通过告知 LLMs 它们生成的内容不代表自己的观点，并对其偏见进行质疑，可以提高 LLMs 识别和解决偏见的能力。这种改进归因于 LLMs 的内部注意力机制和潜在的内部敏感性政策。基于这些发现，我们提出了一个减少 LLMs 输出偏见的新方法。该方法涉及将 LLMs 置于多角色情景中，扮演不同角色，在每个辩论循环的最后担任公正裁判的角色，以暴露偏见。采用排名评分机制来量化偏见水平，从而实现更精细的反思和更优质的输出。比较实验结果证实我们的方法在减少偏见方面优于现有方法，为追求更具伦理 AI 系统的努力作出了有价值的贡献。

Apr, 2024

临床决策支持中 LLMs 应用的偏倚模式：一项综合研究

通过对八种流行的大型语言模型在三个临床病例描述数据集上进行严格评估和分析，我们发现这些模型在受保护群体之间存在各种不同程度的社会偏差，而大小模型并不一定比通用模型更具偏见，经过设计决策的提示方式对社会偏差也有影响，研究呼吁对在临床决策支持应用中使用的大型语言模型进行进一步评估、审查和改进。

Apr, 2024

从心理测量学角度攻击大型语言模型以评估隐性偏见

大型语言模型（LLMs）的普及引发了对其可能产生的不道德内容的增加关注。本文通过利用精心设计的指令进行攻击，以评估 LLMs 对特定群体的潜在偏见。我们提出了三种攻击方法（伪装、欺骗和教授），并构建了四种常见偏见类型的评估数据集。对典型 LLMs 进行了广泛评估，结果显示：1）所有三种攻击方法都非常有效，特别是欺骗攻击；2）GLM-3 在防御我们的攻击方面表现最佳，相比之下 GPT-3.5 和 GPT-4 则较差；3）当以一种偏见类型进行教授时，LLMs 可能会输出其他类型的内容。我们的方法提供了一种可靠而有效的评估 LLMs 潜在偏见的方式，并有助于评估 LLMs 的潜在伦理风险。

Jun, 2024

大型语言模型公平性调研

大语言模型带来了强大的性能和发展前景，并广泛应用于现实世界。然而，这些模型可能从未经处理的训练数据中捕捉到社会偏见，并将其传播到下游任务。本文全面回顾了关于大语言模型中的公平性的相关研究，介绍了中等规模的模型和大规模的模型分别从内在偏见和外在偏见的角度引入了评估指标和去偏方法，并讨论了公平性发展中的挑战和未来方向。

Aug, 2023

超越性能：量化和减轻 LLMs 中的标签偏差

通过评估不同方法对模型预测中的标签偏倚进行量化研究，我们提出了一种专门用于少样本提示的新型标签偏倚校准方法，其在提高性能和减轻标签偏倚方面优于最近的校准方法。我们的结果强调大型语言模型中标签偏倚对其可靠性的影响。

May, 2024