大型语言模型中的社会经济偏见调查
本文介绍了一种全新的包含13个不同人口统计学轴线近600个描述符的、基于HolisticBias的更加包容性的偏差测量数据集,结合一组偏差测量模板产生超过45万个独特的句子提示,用于探索、识别和减少几个生成模型中的新型偏差。
May, 2022
本文探讨利用语言模型作为特定人群的有效代理来进行社会科学研究的可能性,并提出算法保真度的概念,通过对 GPT-3 语言模型进行多层面和微粒度的统计和分析,揭示了其中的“算法偏差”不是均质的,而是有人口学相关性的。作者通过调节模型条件,成为可以精确模拟大量人讨论或表达的回应情况的一种工具,这为理解人类思想、态度和文化背景提供了一种全新且强大的方法。
Sep, 2022
利用上下文词嵌入的概念投射方法,量化了英语语言模型中社会群体的情感倾向,发现语言模型对性别认同、社会阶级和性取向的信号表现出最有偏见的态度,此方法旨在研究语言模型中的历史偏见,并对设计正义做出贡献,探讨了在语言中被边缘化的群体的相关关系。
Jul, 2023
最近人工智能方面的进展,包括高度复杂的大型语言模型(LLM)的发展,已在许多实际应用中证明其益处。然而,这些LLM中存在的固有偏见的证据引发了对公平性的担忧。作为回应,涉及偏见的研究增加了,包括量化偏见和开发去偏技术的研究。针对二元性别分类和道德/种族考虑,还开发了基准偏见数据集,主要关注美国人口统计信息。然而,在了解和量化与少数族裔社会有关的偏见方面几乎没有研究。受对用于量化少数族裔社会偏见的注释数据集缺乏的启发,我们努力为新西兰(NZ)人口创建基准数据集。然而,尽管有三名注释者的数据,我们在这个过程中面临了许多挑战。这项研究概述了手动注释过程,概述了我们遇到的挑战和所学到的教训,并提出了未来研究的建议。
Sep, 2023
调查发现现代语言模型存在基本的社会认同偏见,通过筛选训练数据可以减轻这些偏见。这些结果对于创建更少偏见的大型语言模型以及进一步研究用户与语言模型的互动以防止潜在的偏见加强具有实际意义。
Oct, 2023
本研究提出了一种新的框架,用于探索语言模型中的社会偏见,通过采集探索数据集和利用一种新的公平性评分方法,发现语言模型中的偏见更加复杂,并揭示不同宗教身份导致各种模型中最明显的不平等处理。
Nov, 2023
大型语言模型的偏见与认知偏差的评估:对现有模型中偏见的普遍性持谨慎乐观态度,并承认存在一些真实的偏见,并努力减少其存在。同时,讨论了人类认知偏见的理性以及非代表性数据在误导模型偏见方面的哲学含义。
Nov, 2023
在伦理和公平的领域中,现代大型语言模型(Large Language Models,LLMs)在破解很多最先进的基准测试中表现出色,该研究主要探讨LLMs在受保护群体偏见方面的行为,发现LLMs存在对性别、性取向和西方文化的偏见,并且模型不仅反映了社会偏见,而且似乎放大了这些偏见。尽管该模型对涉及受保护群体的问题过于谨慎,强调多样性和公平,但这种人工限制潜在有害输出的做法本身可能会造成伤害,应该谨慎和有控制地应用。
Mar, 2024
大型语言模型在关键决策过程中被广泛应用,但其中的固有偏见可能导致歧视性结果。本文研究了人口属性和经济偏见在大型语言模型中微妙的关系,这是一个重要但鲜为人知的公平性领域。我们提出了一个新的数据集,包含一百万个英文句子,以系统地量化各个人口群体之间的经济偏见。研究发现,无论是GPT-2等成熟模型还是Llama 2和Falcon等最新模型,都存在普遍的经济偏见。我们证明了在考虑交叉性别时,这些偏见被显著放大,大型语言模型具有从姓名中提取多个人口属性并将其与特定的经济偏见相关联的能力。这项研究突出了在关键实际应用中部署这些强大模型时,积极和强大的偏见缓解技术的紧迫性。
May, 2024