本文通过分析 HuggingFace 最流行的文本生成模型之一 GPT-2 在职业关联方面的偏见来检测大型语言模型的偏见,数据采集基于模板,同时探讨了性别、宗教、性取向、族裔、政治立场和大陆名字起源等因素的影响。
Feb, 2021
本文分析了最先进的语境词表示模型,如 BERT 和 GPT-2,对于性别,种族和交叉身份认同的偏差情况,并提出了一种新颖的方法对词语级别上的偏差进行评估。
Nov, 2019
研究发现最近的语言模型在数字产品中越来越普及,但是人们担心这些模型采用的自然语言会有偏见,影响可用性。为了提高公正性,我们通过一种障碍问卷测量来识别 GPT-3 模型生成的文本是否具有偏见和公平性。
Jun, 2022
本文研究表明,目前最先进的语境化语言模型 GPT-3 存在对穆斯林的暴力偏见,我们对此进行了多方面的探讨和量化,并提出对抗性文本提示来缓解这种偏见。
Jan, 2021
本文利用自然语言生成中存在的偏见漏洞,探索了六个不同在线社区的偏见。通过对 GPT-Neo 1.3B 进行精细调整,该文评估了生成模型的偏见,并通过不同的人口属性来比较情感和毒性价值,从而揭示了各种模型的偏见类型和强度的差异。此外,本文所生成的示例还展示了在偏见研究中使用自动情感和毒性分类器的局限性。
Jun, 2023
这篇论文分析了语言模型中的国籍偏见,探讨了 GPT-2 生成的故事中如何突出现有的有关国籍的社会偏见,并使用敏感性分析探讨了互联网用户数量和国家经济状况对故事情绪的影响。同时还研究了对抗触发的去偏置方法,研究结果表明,GPT-2 在对互联网用户较少的国家存在显著的偏见,而对抗触发方法可以有效地降低偏见。
Feb, 2023
利用上下文词嵌入的概念投射方法,量化了英语语言模型中社会群体的情感倾向,发现语言模型对性别认同、社会阶级和性取向的信号表现出最有偏见的态度,此方法旨在研究语言模型中的历史偏见,并对设计正义做出贡献,探讨了在语言中被边缘化的群体的相关关系。
Jul, 2023
该研究探讨了大型语言模型中的性别偏见问题,特别关注 GPT-2 和 GPT-3.5 等多个语言模型之间的比较,通过对生成的文本进行全面的文献综述和定量分析,发现了性别化词汇关联、语言使用和偏见叙述的问题,并提出了减少性别偏见的算法和数据增强技术。该研究强调了学科间合作的重要性和社会学研究在减少 AI 模型性别偏见中的作用。
通过引入 Contextualized Embedding Association Test (CEAT) 来度量神经语言模型中的整体偏见及其方差,并开发了自动识别交叉偏见和新现出的交叉偏见的方法 (IBD 和 EIBD),结果表明交叉偏见与种族和性别相关的次数最高。
Jun, 2020
本研究探讨了自然语言处理模型中偏见及其避免技术的现有文献,包括为何首先解决偏见问题;此外,文中分析了这些技术在比过去更大的新型模型下的表现。为了实现这些目标,本文作者使用目前可由消费者使用的最大 NLP 模型 GPT3 进行了研究。通过使用 GPT3 开发申请人跟踪系统进行测试,其中主要关注了性别偏见而不是所有或多种类型的偏见。最终,考虑和测试了当前的减轻技术以测试其功能程度。