生成式语言模型表现出社会身份偏见
该研究介绍了一个大规模数据集以及一个新的自动化度量方法,用于研究和评测深度学习技术所生成的自由文本中存在的社会偏见,并发现机器生成的大部分文本在五个领域中表现出比人类撰写的维基百科文本更大的社会偏见。
Jan, 2021
本文介绍了一种全新的包含13个不同人口统计学轴线近600个描述符的、基于HolisticBias的更加包容性的偏差测量数据集,结合一组偏差测量模板产生超过45万个独特的句子提示,用于探索、识别和减少几个生成模型中的新型偏差。
May, 2022
本文提出了一种基于情绪的方法来预测人际群体关系(IGR),研究表明微妙的情感信号表明了不同的偏见,使用美国国会成员的推文数据集,构建了一个被标注为人际情感的数据集,证明神经模型在识别IGR上显著优于人类。我们还发现,IGR和人际感知情感之间的共享编码可以提高两项任务的性能。
Sep, 2022
本文探讨利用语言模型作为特定人群的有效代理来进行社会科学研究的可能性,并提出算法保真度的概念,通过对 GPT-3 语言模型进行多层面和微粒度的统计和分析,揭示了其中的“算法偏差”不是均质的,而是有人口学相关性的。作者通过调节模型条件,成为可以精确模拟大量人讨论或表达的回应情况的一种工具,这为理解人类思想、态度和文化背景提供了一种全新且强大的方法。
Sep, 2022
利用上下文词嵌入的概念投射方法,量化了英语语言模型中社会群体的情感倾向,发现语言模型对性别认同、社会阶级和性取向的信号表现出最有偏见的态度,此方法旨在研究语言模型中的历史偏见,并对设计正义做出贡献,探讨了在语言中被边缘化的群体的相关关系。
Jul, 2023
通过对四个最近发表的大型语言模型进行测试,我们发现大型语言模型在性别刻板印象、职业偏见和句子结构等方面表现出偏见,它们更倾向于选择与性别刻板印象相关的职业,并且在提供自己选择的解释时常常存在事实错误,对于这些模型的偏见行为,我们需要谨慎测试以确保它们对待边缘化个体和社区是公平的。
Aug, 2023
大型语言模型经常用于日常生活,但其内部机制仍然不透明。本文将研究LLMs中存在的偏见,特别是与社会群体的刻板属性相关的偏见,并扩展研究范围,探究LLMs中的另一种偏见,即社会优势群体相对于社会从属群体更具异质性的现象。本研究使用ChatGPT,一个最先进的LLM,生成了关于交叉群体身份的多样化文本,并比较了文本的同质性。我们一致发现,LLMs将非洲裔、亚洲裔和拉美裔美国人描绘为比白人更具同质性。他们还描绘女性比男性更具同质性,但这些差异很小。最后,我们发现性别的影响在种族/民族群体中存在差异,即在非洲裔和拉美裔美国人中性别的影响是一致的,但在亚洲裔和白人中不一致。我们对LLMs中这种偏见的可能来源进行了推测,并指出这种偏见有可能放大未来LLM训练中的偏见并强化刻板印象。
Jan, 2024
当ChatGPT具有特定的社会身份时,它能够区分内外群体,拥抱内群体价值观而回避外群体价值观,表现出对外群体的负面态度,该研究在多种语言环境以及在政治领域得到了复制和确认,并提供了减轻此类偏见的关键见解。
Feb, 2024
社会偏见在大型语言模型中是由各种人口统计学特征的目标的社会感知的积累所塑造的。为了全面理解大型语言模型中的这种社会偏见,必须考虑到各种身份认同之间多元观点下的社会感知。本文旨在研究各种视角的社会感知如何影响大型语言模型中社会偏见的发展。为此,我们提出了一种直观量化这些社会感知的新策略,并提出了可以通过汇集多样化的社会感知评估大型语言模型中社会偏见的度量标准。实验结果通过检查社会感知定量地展示了大型语言模型中的社会态度。我们进行的分析表明,我们提出的度量标准捕捉到了社会偏见的多维方面,从而实现了对大型语言模型中偏见的细致全面的调查。
Jun, 2024
本研究解决了大语言模型(LLMs)在身份认同的内化过程中,对外群体偏见的忽视问题。通过社会身份理论,我们展示了外群体偏见与内群体偏见同样强烈,并通过引导语言模型采用被先前不利群体的视角,有效减轻了其固有的偏见。这一发现对开发更加公正平衡的语言模型具有重要意义。
Sep, 2024