角色设定陷阱:大语言模型中的持续外群偏见源于社会身份认同
利用上下文词嵌入的概念投射方法,量化了英语语言模型中社会群体的情感倾向,发现语言模型对性别认同、社会阶级和性取向的信号表现出最有偏见的态度,此方法旨在研究语言模型中的历史偏见,并对设计正义做出贡献,探讨了在语言中被边缘化的群体的相关关系。
Jul, 2023
通过对四个最近发表的大型语言模型进行测试,我们发现大型语言模型在性别刻板印象、职业偏见和句子结构等方面表现出偏见,它们更倾向于选择与性别刻板印象相关的职业,并且在提供自己选择的解释时常常存在事实错误,对于这些模型的偏见行为,我们需要谨慎测试以确保它们对待边缘化个体和社区是公平的。
Aug, 2023
调查发现现代语言模型存在基本的社会认同偏见,通过筛选训练数据可以减轻这些偏见。这些结果对于创建更少偏见的大型语言模型以及进一步研究用户与语言模型的互动以防止潜在的偏见加强具有实际意义。
Oct, 2023
大型语言模型经常用于日常生活,但其内部机制仍然不透明。本文将研究LLMs中存在的偏见,特别是与社会群体的刻板属性相关的偏见,并扩展研究范围,探究LLMs中的另一种偏见,即社会优势群体相对于社会从属群体更具异质性的现象。本研究使用ChatGPT,一个最先进的LLM,生成了关于交叉群体身份的多样化文本,并比较了文本的同质性。我们一致发现,LLMs将非洲裔、亚洲裔和拉美裔美国人描绘为比白人更具同质性。他们还描绘女性比男性更具同质性,但这些差异很小。最后,我们发现性别的影响在种族/民族群体中存在差异,即在非洲裔和拉美裔美国人中性别的影响是一致的,但在亚洲裔和白人中不一致。我们对LLMs中这种偏见的可能来源进行了推测,并指出这种偏见有可能放大未来LLM训练中的偏见并强化刻板印象。
Jan, 2024
当ChatGPT具有特定的社会身份时,它能够区分内外群体,拥抱内群体价值观而回避外群体价值观,表现出对外群体的负面态度,该研究在多种语言环境以及在政治领域得到了复制和确认,并提供了减轻此类偏见的关键见解。
Feb, 2024
在伦理和公平的领域中,现代大型语言模型(Large Language Models,LLMs)在破解很多最先进的基准测试中表现出色,该研究主要探讨LLMs在受保护群体偏见方面的行为,发现LLMs存在对性别、性取向和西方文化的偏见,并且模型不仅反映了社会偏见,而且似乎放大了这些偏见。尽管该模型对涉及受保护群体的问题过于谨慎,强调多样性和公平,但这种人工限制潜在有害输出的做法本身可能会造成伤害,应该谨慎和有控制地应用。
Mar, 2024
社会偏见在大型语言模型中是由各种人口统计学特征的目标的社会感知的积累所塑造的。为了全面理解大型语言模型中的这种社会偏见,必须考虑到各种身份认同之间多元观点下的社会感知。本文旨在研究各种视角的社会感知如何影响大型语言模型中社会偏见的发展。为此,我们提出了一种直观量化这些社会感知的新策略,并提出了可以通过汇集多样化的社会感知评估大型语言模型中社会偏见的度量标准。实验结果通过检查社会感知定量地展示了大型语言模型中的社会态度。我们进行的分析表明,我们提出的度量标准捕捉到了社会偏见的多维方面,从而实现了对大型语言模型中偏见的细致全面的调查。
Jun, 2024
通过以人类为模版的角色对大型语言模型进行提示和回答问题,我们研究了这种模型在主观注释任务和信念生成任务中的表现,结果显示大型语言模型在模拟已知的人类偏见方面存在不同的结果,但在表现隐含的偏见方面通常未能达到预期。我们得出结论,大型语言模型缺乏人类思维的内在认知机制,虽然能够捕获人们言语的统计模式,但在复杂社会科学应用中可能限制其效果。
Jun, 2024
大型语言模型(LLMs)持续存在社会偏见,反映其训练数据中的偏见,并加强社会刻板印象和不平等现象。我们的研究探讨了社会心理学概念中的接触假设在消除LLMs偏见方面的潜在潜力。通过对LLMs进行各种形式的社会接触模拟,以测量其对模型偏见的影响,反映了群体间互动如何在社会环境中减少偏见。我们使用一种有原则的方法创建了一个包含108,000个提示的数据集,用于复制社会接触以测量三个LLMs(LLaMA 2,Tulu和NousHermes)在13个社会偏见维度上的偏见。我们提出了一种独特的去偏思路,即社会接触去偏(SCD),通过对提问的无偏回复进行指导调整这些模型。我们的研究表明,当LLMs经过接触探测时,其回答存在社会偏见,但更重要的是,经过我们的SCD策略后,LLaMA 2的指令调整可以将这些偏见显著减少40%。我们的代码和数据可在此URL上获得。
Jul, 2024