Jul, 2024

消除偏见,建立桥梁:通过接触假设评估和缓解 LMM 中的社会偏见

TL;DR大型语言模型(LLMs)持续存在社会偏见,反映其训练数据中的偏见,并加强社会刻板印象和不平等现象。我们的研究探讨了社会心理学概念中的接触假设在消除 LLMs 偏见方面的潜在潜力。通过对 LLMs 进行各种形式的社会接触模拟,以测量其对模型偏见的影响,反映了群体间互动如何在社会环境中减少偏见。我们使用一种有原则的方法创建了一个包含 108,000 个提示的数据集,用于复制社会接触以测量三个 LLMs(LLaMA 2,Tulu 和 NousHermes)在 13 个社会偏见维度上的偏见。我们提出了一种独特的去偏思路,即社会接触去偏(SCD),通过对提问的无偏回复进行指导调整这些模型。我们的研究表明,当 LLMs 经过接触探测时,其回答存在社会偏见,但更重要的是,经过我们的 SCD 策略后,LLaMA 2 的指令调整可以将这些偏见显著减少 40%。我们的代码和数据可在此 URL 上获得。