理解和应对刻板印象:基于计算方法的刻板印象内容模型研究
本文证明了在语境化的词嵌入中,刻板印象内容模型可以得到保持,然后使用这些结果来评估一种旨在将语言模型从对少数群体的刻板印象描绘中远离的微调过程,进一步证明了 SCM 术语能够更好地捕捉偏见,通过一种简单的微调过程,可以减少模型中成见的存在,而不会损害下游性能,这代表了旨在消除模型偏见的去偏见过程的原型。
Oct, 2022
本文提出一种基于 Stereotype Content Model(SCM)的单词嵌入去偏见方法,使用具有 “温暖” 和 “能力” 的特定单词对嵌入矢量进行偏差修正,并在不同社会群体中进行了性能比较。
Oct, 2022
本文通过注释数据集来量化语言中的刻板印象,并使用预训练语言模型来预测句子的刻板印象。然后,探讨刻板印象与仇恨言论、性别歧视、情感以及弱势和优势群体等常见社会问题之间的联系和差异,并验证了当前研究的总体发现。此外,本研究表明,细粒度的刻板印象分数是社会问题研究中一个高度相关且具有竞争力的维度。
Jan, 2024
通过自动生成的针对性别刻板印象的对立刻板印象,自称为男性和女性的研究参与者评估其冒犯性、可信度和潜在有效性,并发现对立事实和扩大普遍性(即无论群体成员如何都有某种特质)的策略是最有效的对策,相比较而言,幽默、换位思考、对立例子和对发言者的同理心等策略被认为效果较差。同时,对不同目标的刻板印象而言,评级的差异更明显,而对评级者的性别差异相对较小。然而,令人震惊的是,许多通过 AI 生成的对立刻板印象被认为具有冒犯性和 / 或不可信。我们的分析和收集到的数据集为对抗在线互动中的性别刻板印象提供了基础洞察,指导未来努力开发有效挑战性别刻板印象的策略。
Apr, 2024
通过心理学和哲学文献,我们提供六种基于心理学的策略来挑战令人讨厌的语言中的刻板印象,并发现人类编写的反言中使用更具体的对抗策略,而机器生成的反言使用的策略通常不太具体且不太令人信服。
Oct, 2023
本文研究语言模型中的偏见问题,提出了一种测试内部陈规陈瘤表现的简单方法,并探讨了该方法在性别偏见方面的应用。实验表明,使用无关的知识时,预训练的语言模型表现出一定的鲁棒性,并倾向于选择词语位置和句法结构等浅层语言线索来改变内部陈规陈瘤表现,从而为微调和评估中如何中性地处理语言模型提供了新的思路。
Jan, 2023
本研究使用社会心理学的 Agency-Belief-Communion (ABC) 刻板印象模型来系统地研究和发现语言模型中的刻板印象,提出了敏感度测试(SeT)以测量语言模型中的刻板印象,并将该框架扩展到测量交叉身份的 LM 刻板印象。
Jun, 2022
本研究探讨了预训练语言模型捕捉的刻板印象信息类型,提出了第一个包括不同社会群体的刻板属性的数据集,并提出了一种无监督获取预训练语言模型编码的刻板印象的方法,同时将 emergent stereotypes 与其作为基本情感的体现进行关联,以此更一般化地研究它们的情感影响。通过使用新闻源的微调作为案例研究,展示了我们的方法如何被用于分析由于语言经验而导致的情感和刻板印象的变化。我们的实验揭示了不同社会群体的态度在模型之间的差异以及情感和刻板印象可以在微调阶段迅速变化。
Sep, 2021