Nov, 2023

呢翻叭咩意?揭露語言模型表達中的偏好偏見

TL;DR大型语言模型是否表现出社会人口统计学偏见,即使他们拒绝回答?通过探索上下文嵌入,并研究这种偏见是否被编码在其潜在表示中,我们提出了一种逻辑 Bradley-Terry 探测器,从单词的隐藏向量预测 LLMs 中的单词对偏好。我们在三个偏好配对任务和十三个 LLMs 上首先验证了我们的探测器,在测试隐性联系的标准方法(WEAT)中,我们的错误率相对于 WEAT 提高了 27%。我们还发现单词对偏好在中间层中最有效。接下来,我们将训练在无害任务上的探测器(例如,选择更大的数字)转移到有争议的任务上(比较民族、政治、宗教和性别),以检查国籍、政治、宗教和性别方面的偏见。我们观察到对于所有目标类别都存在大量偏见:例如,Mistral 模型在不回答的情况下,暗示欧洲优于非洲、基督教优于犹太教、左翼优于右翼政治。这表明指示微调不一定能够削弱上下文嵌入的偏见。我们的代码库位于此 https URL