量化语言中的刻板印象

Jan, 2024

Quantifying Stereotypes in Language

Yang Liu

TL;DR本文通过注释数据集来量化语言中的刻板印象，并使用预训练语言模型来预测句子的刻板印象。然后，探讨刻板印象与仇恨言论、性别歧视、情感以及弱势和优势群体等常见社会问题之间的联系和差异，并验证了当前研究的总体发现。此外，本研究表明，细粒度的刻板印象分数是社会问题研究中一个高度相关且具有竞争力的维度。

Abstract

A stereotype is a generalized perception of a specific group of humans. It is often potentially encoded in human language, which is more common in texts on →

stereotype language quantification social issues fine-grained

发现论文，激发创造

StereoSet：测量预训练语言模型中的陈词滥调偏见

该论文介绍了 StereoSet，一个用于评估英语中预训练语言模型中四种基于性别、职业、种族和宗教的陈规陋习偏见的大规模自然数据集，并评估了 BERT、GPT-2、RoBERTa 和 XLNet 等流行的语言模型在其中的表现，同时呈现了一个有隐藏测试集的排行榜来跟踪未来语言模型的偏见。

Apr, 2020

量化和减少词嵌入中的刻板印象

通过研究 word embedding 中的性别特征，开发了一种有效算法，减少性别刻板印象又能保留嵌入的有用几何特性。

Jun, 2016

理解和应对刻板印象：基于计算方法的刻板印象内容模型研究

通过计算 SCM 模型方法的实施，本文针对文本中的刻板印象进行解释和应用，同时研究了通过反刻板印象来减少偏见思维的有效策略。

Jun, 2021

语言模型中对陈规的理解：朝着鲁棒度量和零 - shot 去偏见的方向

本文研究了预训练语言模型的生成文本中存在的人类偏见和其对不同人口群体的影响，针对现有的评估技术和基准的准确性问题，提出了新的评估框架以更稳健地测量和量化语言模型所表现出的偏见。并使用该框架调查了 GPT-3 的职业性别偏见，并提出了一些缓解这些偏见的提示技术。

Dec, 2022

基于理论的测量 —— 英语语言模型中美国社会刻板印象

本研究使用社会心理学的 Agency-Belief-Communion (ABC) 刻板印象模型来系统地研究和发现语言模型中的刻板印象，提出了敏感度测试（SeT）以测量语言模型中的刻板印象，并将该框架扩展到测量交叉身份的 LM 刻板印象。

Jun, 2022

继母很恶毒，学者很自负：预训练语言模型学到了什么？

本研究探讨了预训练语言模型捕捉的刻板印象信息类型，提出了第一个包括不同社会群体的刻板属性的数据集，并提出了一种无监督获取预训练语言模型编码的刻板印象的方法，同时将 emergent stereotypes 与其作为基本情感的体现进行关联，以此更一般化地研究它们的情感影响。通过使用新闻源的微调作为案例研究，展示了我们的方法如何被用于分析由于语言经验而导致的情感和刻板印象的变化。我们的实验揭示了不同社会群体的态度在模型之间的差异以及情感和刻板印象可以在微调阶段迅速变化。

Sep, 2021

语言、沟通和社会：基于性别的语言学分析

通过问卷调查 537 人得出结论，语言作为我们思维、偏见和文化刻板印象的反映。研究分析中发现了性别刻板印象的存在，特别是在定义男女角色时出现的，结果可作为理解刻板印象和期望对于不平等和惩罚产生的作用的起点。

Jul, 2020

面向大型语言模型的审计：提升基于文本的刻板印象检测

本研究介绍了一个多维度刻板印象数据集以及英文文本的新型刻板印象分类器，并通过多类别训练模型在多种可解释 AI 工具下展示出较好的性能，利用该模型评估了流行的 GPT 模型系列的刻板印象行为，并观察到刻板印象的减少，从而为 LLM 的刻板印象偏见审计和评估建立了一个稳健而实用的框架。

Nov, 2023

量化预训练语言模型中的性别偏见和倾斜

本文提出了两个直观的度量标准、skew 和 stereotype，来量化和分析上下文语言模型应对 WinoBias 代词消解任务时存在的性别偏见，并通过两种方法调查了如何减少偏见。第一个方法是在线方法，在牺牲刻板印象的代价下有效地消除偏斜。第二个方法是借鉴了 ELMo 的先前工作，并使用增强的性别平衡数据集微调 BERT，结果与无增强微调的 BERT 相比，降低了 skew 和 stereotype。但是，我们发现现有的性别偏见基准未完全探测到专业偏见，因为代词消解可能会被来自其他性别偏见表现的交叉相关性所混淆。

Jan, 2021

多语言大型语言模型人类刻板印象泄漏跨语言边界

多语种大型语言模型中存在刻板印象的泄漏现象，表现为正面、负面和非极性关联在所有语言中都存在，尤其是对印地语敏感度最大，而中文敏感度最小；此外，ChatGPT 与人类评分更加匹配。

Dec, 2023