继母很恶毒，学者很自负：预训练语言模型学到了什么？

Sep, 2021

继母很恶毒，学者很自负：预训练语言模型学到了什么？

Stepmothers are mean and academics are pretentious: What do pretrained language models learn about you?

Rochelle Choenni, Ekaterina Shutova, Robert van Rooij

TL;DR本研究探讨了预训练语言模型捕捉的刻板印象信息类型，提出了第一个包括不同社会群体的刻板属性的数据集，并提出了一种无监督获取预训练语言模型编码的刻板印象的方法，同时将 emergent stereotypes 与其作为基本情感的体现进行关联，以此更一般化地研究它们的情感影响。通过使用新闻源的微调作为案例研究，展示了我们的方法如何被用于分析由于语言经验而导致的情感和刻板印象的变化。我们的实验揭示了不同社会群体的态度在模型之间的差异以及情感和刻板印象可以在微调阶段迅速变化。

Abstract

In this paper, we investigate what types of stereotypical information are captured by pretrained language models. We present the first dataset comprising stereotypical attributes of a range of →

pretrained language models stereotypical information social groups emotional effects fine-tuning

发现论文，激发创造

StereoSet：测量预训练语言模型中的陈词滥调偏见

该论文介绍了 StereoSet，一个用于评估英语中预训练语言模型中四种基于性别、职业、种族和宗教的陈规陋习偏见的大规模自然数据集，并评估了 BERT、GPT-2、RoBERTa 和 XLNet 等流行的语言模型在其中的表现，同时呈现了一个有隐藏测试集的排行榜来跟踪未来语言模型的偏见。

Apr, 2020

测试预训练语言模型中的刻板印象

本文研究语言模型中的偏见问题，提出了一种测试内部陈规陈瘤表现的简单方法，并探讨了该方法在性别偏见方面的应用。实验表明，使用无关的知识时，预训练的语言模型表现出一定的鲁棒性，并倾向于选择词语位置和句法结构等浅层语言线索来改变内部陈规陈瘤表现，从而为微调和评估中如何中性地处理语言模型提供了新的思路。

Jan, 2023

探索并缓解语言模型中的社会偏见

为了提高语言模型的公正性，本文提出了多项定义并给出了新的测试和度量方式，旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明，该方法能够在文本生成中减少偏见同时保留重要的上下文信息。

Jun, 2021

愤怒的男人，悲伤的女人：大型语言模型在情感归因中反映了性别刻板印象

大型语言模型 (LLMs) 在性别方面反映了社会规范和偏见。本文填补情绪分析中对于社会偏见的研究空白，首次对五种最先进的开源和闭源 LLM 进行了性别化情绪归因的全面研究，发现这些模型始终存在受到性别刻板印象影响的性别化情绪。

Mar, 2024

语言模型中对陈规的理解：朝着鲁棒度量和零 - shot 去偏见的方向

本文研究了预训练语言模型的生成文本中存在的人类偏见和其对不同人口群体的影响，针对现有的评估技术和基准的准确性问题，提出了新的评估框架以更稳健地测量和量化语言模型所表现出的偏见。并使用该框架调查了 GPT-3 的职业性别偏见，并提出了一些缓解这些偏见的提示技术。

Dec, 2022

不同语言中的典型偏见有多大差异？

通过系统地分析使用不同语言、单语和多语模型、不同架构的偏向性，扩展了评估预训练英语语言模型中的刻板偏见的研究范围，发现在多语言环境下分析是非常重要的，并且公布了代码库以及翻译数据集的实用指南以鼓励将我们的工作进一步扩展到其他语言。

Jul, 2023

量化预训练语言模型中的性别偏见和倾斜

本文提出了两个直观的度量标准、skew 和 stereotype，来量化和分析上下文语言模型应对 WinoBias 代词消解任务时存在的性别偏见，并通过两种方法调查了如何减少偏见。第一个方法是在线方法，在牺牲刻板印象的代价下有效地消除偏斜。第二个方法是借鉴了 ELMo 的先前工作，并使用增强的性别平衡数据集微调 BERT，结果与无增强微调的 BERT 相比，降低了 skew 和 stereotype。但是，我们发现现有的性别偏见基准未完全探测到专业偏见，因为代词消解可能会被来自其他性别偏见表现的交叉相关性所混淆。

Jan, 2021

量化和减少词嵌入中的刻板印象

通过研究 word embedding 中的性别特征，开发了一种有效算法，减少性别刻板印象又能保留嵌入的有用几何特性。

Jun, 2016

多语言大型语言模型人类刻板印象泄漏跨语言边界

多语种大型语言模型中存在刻板印象的泄漏现象，表现为正面、负面和非极性关联在所有语言中都存在，尤其是对印地语敏感度最大，而中文敏感度最小；此外，ChatGPT 与人类评分更加匹配。

Dec, 2023

评估大型语言模型中的性别和种族刻板印象

通过比较研究和建立评估框架，在专业环境中研究语言模型的两种偏见：性别和种族。我们发现，尽管较新的模型相比较老模型来说性别偏见大大减少，但种族偏见仍然存在。

Nov, 2023