理解和应对刻板印象：基于计算方法的刻板印象内容模型研究

ACLJun, 2021

理解和应对刻板印象：基于计算方法的刻板印象内容模型研究

Understanding and Countering Stereotypes: A Computational Approach to the Stereotype Content Model

Kathleen C. Fraser, Isar Nejadgholi, Svetlana Kiritchenko

TL;DR通过计算 SCM 模型方法的实施，本文针对文本中的刻板印象进行解释和应用，同时研究了通过反刻板印象来减少偏见思维的有效策略。

Abstract

stereotypical language expresses widely-held beliefs about different social categories. Many stereotypes are overtly negative, while others may appear positive on the surface, but still lead to negative consequences. In this work, we present a computational approach to interpreting

stereotypical language stereotypes in text computational scm model anti-stereotypes bias reduction

发现论文，激发创造

一种基于刻板印象内容模型的强健偏见缓解程序

本文证明了在语境化的词嵌入中，刻板印象内容模型可以得到保持，然后使用这些结果来评估一种旨在将语言模型从对少数群体的刻板印象描绘中远离的微调过程，进一步证明了 SCM 术语能够更好地捕捉偏见，通过一种简单的微调过程，可以减少模型中成见的存在，而不会损害下游性能，这代表了旨在消除模型偏见的去偏见过程的原型。

Oct, 2022

基于刻板印象内容模型的社会群体不可知词嵌入去偏置

本文提出一种基于 Stereotype Content Model（SCM）的单词嵌入去偏见方法，使用具有 “温暖” 和 “能力” 的特定单词对嵌入矢量进行偏差修正，并在不同社会群体中进行了性能比较。

Oct, 2022

立体地图：量化大型语言模型中类人种族刻板印象的认知

大语言模型（LLMs）如何感知和表达社会群体，及其潜在偏见和有害联想的维度研究。

Oct, 2023

量化语言中的刻板印象

本文通过注释数据集来量化语言中的刻板印象，并使用预训练语言模型来预测句子的刻板印象。然后，探讨刻板印象与仇恨言论、性别歧视、情感以及弱势和优势群体等常见社会问题之间的联系和差异，并验证了当前研究的总体发现。此外，本研究表明，细粒度的刻板印象分数是社会问题研究中一个高度相关且具有竞争力的维度。

Jan, 2024

挑战负面性别刻板印象：自动对抗刻板印象有效性研究

通过自动生成的针对性别刻板印象的对立刻板印象，自称为男性和女性的研究参与者评估其冒犯性、可信度和潜在有效性，并发现对立事实和扩大普遍性（即无论群体成员如何都有某种特质）的策略是最有效的对策，相比较而言，幽默、换位思考、对立例子和对发言者的同理心等策略被认为效果较差。同时，对不同目标的刻板印象而言，评级的差异更明显，而对评级者的性别差异相对较小。然而，令人震惊的是，许多通过 AI 生成的对立刻板印象被认为具有冒犯性和 / 或不可信。我们的分析和收集到的数据集为对抗在线互动中的性别刻板印象提供了基础洞察，指导未来努力开发有效挑战性别刻板印象的策略。

Apr, 2024

超越谴责仇恨：消除语言中暗含的偏见和刻板印象的策略

通过心理学和哲学文献，我们提供六种基于心理学的策略来挑战令人讨厌的语言中的刻板印象，并发现人类编写的反言中使用更具体的对抗策略，而机器生成的反言使用的策略通常不太具体且不太令人信服。

Oct, 2023

测试预训练语言模型中的刻板印象

本文研究语言模型中的偏见问题，提出了一种测试内部陈规陈瘤表现的简单方法，并探讨了该方法在性别偏见方面的应用。实验表明，使用无关的知识时，预训练的语言模型表现出一定的鲁棒性，并倾向于选择词语位置和句法结构等浅层语言线索来改变内部陈规陈瘤表现，从而为微调和评估中如何中性地处理语言模型提供了新的思路。

Jan, 2023

量化和减少词嵌入中的刻板印象

通过研究 word embedding 中的性别特征，开发了一种有效算法，减少性别刻板印象又能保留嵌入的有用几何特性。

Jun, 2016

基于理论的测量 —— 英语语言模型中美国社会刻板印象

本研究使用社会心理学的 Agency-Belief-Communion (ABC) 刻板印象模型来系统地研究和发现语言模型中的刻板印象，提出了敏感度测试（SeT）以测量语言模型中的刻板印象，并将该框架扩展到测量交叉身份的 LM 刻板印象。

Jun, 2022

继母很恶毒，学者很自负：预训练语言模型学到了什么？

本研究探讨了预训练语言模型捕捉的刻板印象信息类型，提出了第一个包括不同社会群体的刻板属性的数据集，并提出了一种无监督获取预训练语言模型编码的刻板印象的方法，同时将 emergent stereotypes 与其作为基本情感的体现进行关联，以此更一般化地研究它们的情感影响。通过使用新闻源的微调作为案例研究，展示了我们的方法如何被用于分析由于语言经验而导致的情感和刻板印象的变化。我们的实验揭示了不同社会群体的态度在模型之间的差异以及情感和刻板印象可以在微调阶段迅速变化。

Sep, 2021