揭示职业偏见:使用美国劳动数据的基础去偏见方法
通过分析工作推荐, 揭示大型语言模型中的人口统计偏见。研究发现LLMs存在与不同人口统计身份相关的偏见,如Mexican workers普遍倾向于低薪工作,女性倾向于秘书角色。这突出了在后续应用中量化LLMs偏见的重要性,以了解可能造成的伤害和不公平结果。
Aug, 2023
通过对四个最近发表的大型语言模型进行测试,我们发现大型语言模型在性别刻板印象、职业偏见和句子结构等方面表现出偏见,它们更倾向于选择与性别刻板印象相关的职业,并且在提供自己选择的解释时常常存在事实错误,对于这些模型的偏见行为,我们需要谨慎测试以确保它们对待边缘化个体和社区是公平的。
Aug, 2023
最近人工智能方面的进展,包括高度复杂的大型语言模型(LLM)的发展,已在许多实际应用中证明其益处。然而,这些LLM中存在的固有偏见的证据引发了对公平性的担忧。作为回应,涉及偏见的研究增加了,包括量化偏见和开发去偏技术的研究。针对二元性别分类和道德/种族考虑,还开发了基准偏见数据集,主要关注美国人口统计信息。然而,在了解和量化与少数族裔社会有关的偏见方面几乎没有研究。受对用于量化少数族裔社会偏见的注释数据集缺乏的启发,我们努力为新西兰(NZ)人口创建基准数据集。然而,尽管有三名注释者的数据,我们在这个过程中面临了许多挑战。这项研究概述了手动注释过程,概述了我们遇到的挑战和所学到的教训,并提出了未来研究的建议。
Sep, 2023
在伦理和公平的领域中,现代大型语言模型(Large Language Models,LLMs)在破解很多最先进的基准测试中表现出色,该研究主要探讨LLMs在受保护群体偏见方面的行为,发现LLMs存在对性别、性取向和西方文化的偏见,并且模型不仅反映了社会偏见,而且似乎放大了这些偏见。尽管该模型对涉及受保护群体的问题过于谨慎,强调多样性和公平,但这种人工限制潜在有害输出的做法本身可能会造成伤害,应该谨慎和有控制地应用。
Mar, 2024
本研究针对大型语言模型在训练数据中固有的社会偏见,特别是性别和职业相关的偏见,进行探讨。研究提出了一种简单有效的去偏见机制,结合美国国家劳动统计局的数据,显著降低了偏见分数,展示了创建更公平可靠的语言模型的潜力。
Aug, 2024
本研究针对大型语言模型(LLMs)中的偏见问题进行全面调查,填补了当前研究中的空白。通过系统分类偏见的类型、来源和影响,并评估现有的缓解策略,本文提出了未来提升模型公平性和公正性的研究方向。研究结果为关注LLMs偏见的研究人员、从业者和政策制定者提供了重要资源。
Sep, 2024
本研究探讨了大型语言模型(LLMs)中存在的偏见问题,影响其可用性和公平性。通过分析2024年发布的四种领先LLMs在职业和犯罪场景中的性别、种族和年龄偏见,发现这些模型在职业场景中对女性角色的描绘偏差达37%,而在犯罪场景中性别、种族和年龄的偏差分别为54%、28%和17%。研究结果强调了当前偏见缓解技术的局限性,呼吁寻找更有效的方法。
Sep, 2024
该研究针对大型语言模型(LLMs)中存在的偏见问题,提出了一种新颖的多LLM去偏见框架。该框架引入了集中式和去中心化两种方法,显著减少了模型中的偏见,并在各社会群体中超越了基线方法,展现了良好的效果。
Sep, 2024