量化语言中的刻板印象
该论文介绍了 StereoSet,一个用于评估英语中预训练语言模型中四种基于性别、职业、种族和宗教的陈规陋习偏见的大规模自然数据集,并评估了 BERT、GPT-2、RoBERTa 和 XLNet 等流行的语言模型在其中的表现,同时呈现了一个有隐藏测试集的排行榜来跟踪未来语言模型的偏见。
Apr, 2020
本文研究了预训练语言模型的生成文本中存在的人类偏见和其对不同人口群体的影响,针对现有的评估技术和基准的准确性问题,提出了新的评估框架以更稳健地测量和量化语言模型所表现出的偏见。并使用该框架调查了 GPT-3 的职业性别偏见,并提出了一些缓解这些偏见的提示技术。
Dec, 2022
本研究使用社会心理学的 Agency-Belief-Communion (ABC) 刻板印象模型来系统地研究和发现语言模型中的刻板印象,提出了敏感度测试(SeT)以测量语言模型中的刻板印象,并将该框架扩展到测量交叉身份的 LM 刻板印象。
Jun, 2022
本研究探讨了预训练语言模型捕捉的刻板印象信息类型,提出了第一个包括不同社会群体的刻板属性的数据集,并提出了一种无监督获取预训练语言模型编码的刻板印象的方法,同时将 emergent stereotypes 与其作为基本情感的体现进行关联,以此更一般化地研究它们的情感影响。通过使用新闻源的微调作为案例研究,展示了我们的方法如何被用于分析由于语言经验而导致的情感和刻板印象的变化。我们的实验揭示了不同社会群体的态度在模型之间的差异以及情感和刻板印象可以在微调阶段迅速变化。
Sep, 2021
通过问卷调查 537 人得出结论,语言作为我们思维、偏见和文化刻板印象的反映。研究分析中发现了性别刻板印象的存在,特别是在定义男女角色时出现的,结果可作为理解刻板印象和期望对于不平等和惩罚产生的作用的起点。
Jul, 2020
本研究介绍了一个多维度刻板印象数据集以及英文文本的新型刻板印象分类器,并通过多类别训练模型在多种可解释 AI 工具下展示出较好的性能,利用该模型评估了流行的 GPT 模型系列的刻板印象行为,并观察到刻板印象的减少,从而为 LLM 的刻板印象偏见审计和评估建立了一个稳健而实用的框架。
Nov, 2023
本文提出了两个直观的度量标准、skew 和 stereotype,来量化和分析上下文语言模型应对 WinoBias 代词消解任务时存在的性别偏见,并通过两种方法调查了如何减少偏见。第一个方法是在线方法,在牺牲刻板印象的代价下有效地消除偏斜。第二个方法是借鉴了 ELMo 的先前工作,并使用增强的性别平衡数据集微调 BERT,结果与无增强微调的 BERT 相比,降低了 skew 和 stereotype。但是,我们发现现有的性别偏见基准未完全探测到专业偏见,因为代词消解可能会被来自其他性别偏见表现的交叉相关性所混淆。
Jan, 2021
多语种大型语言模型中存在刻板印象的泄漏现象,表现为正面、负面和非极性关联在所有语言中都存在,尤其是对印地语敏感度最大,而中文敏感度最小;此外,ChatGPT 与人类评分更加匹配。
Dec, 2023