通过社会偏见推理来对抗本质主义
通过心理学和哲学文献,我们提供六种基于心理学的策略来挑战令人讨厌的语言中的刻板印象,并发现人类编写的反言中使用更具体的对抗策略,而机器生成的反言使用的策略通常不太具体且不太令人信服。
Oct, 2023
通过自动生成的针对性别刻板印象的对立刻板印象,自称为男性和女性的研究参与者评估其冒犯性、可信度和潜在有效性,并发现对立事实和扩大普遍性(即无论群体成员如何都有某种特质)的策略是最有效的对策,相比较而言,幽默、换位思考、对立例子和对发言者的同理心等策略被认为效果较差。同时,对不同目标的刻板印象而言,评级的差异更明显,而对评级者的性别差异相对较小。然而,令人震惊的是,许多通过 AI 生成的对立刻板印象被认为具有冒犯性和 / 或不可信。我们的分析和收集到的数据集为对抗在线互动中的性别刻板印象提供了基础洞察,指导未来努力开发有效挑战性别刻板印象的策略。
Apr, 2024
本研究使用社会心理学的 Agency-Belief-Communion (ABC) 刻板印象模型来系统地研究和发现语言模型中的刻板印象,提出了敏感度测试(SeT)以测量语言模型中的刻板印象,并将该框架扩展到测量交叉身份的 LM 刻板印象。
Jun, 2022
本文研究语言模型中的偏见问题,提出了一种测试内部陈规陈瘤表现的简单方法,并探讨了该方法在性别偏见方面的应用。实验表明,使用无关的知识时,预训练的语言模型表现出一定的鲁棒性,并倾向于选择词语位置和句法结构等浅层语言线索来改变内部陈规陈瘤表现,从而为微调和评估中如何中性地处理语言模型提供了新的思路。
Jan, 2023
本文通过注释数据集来量化语言中的刻板印象,并使用预训练语言模型来预测句子的刻板印象。然后,探讨刻板印象与仇恨言论、性别歧视、情感以及弱势和优势群体等常见社会问题之间的联系和差异,并验证了当前研究的总体发现。此外,本研究表明,细粒度的刻板印象分数是社会问题研究中一个高度相关且具有竞争力的维度。
Jan, 2024
本文中,我们描述了几种针对不同社区的刻板印象,这些社区存在于受欢迎的句子表示模型(包括预训练的下个句子预测和对比句子表示模型)中。通过比较基于文本相似性的强预训练模型与学习语言逻辑的文本蕴涵模型,我们得出结论:与显式去偏见流程相比,使用文本蕴涵显式逻辑学习可以显著减少偏见并提高社区的识别。
Mar, 2023
本研究提出了一种名为 “社会偏见框架” 的新的概念形式化模型,以模拟人们如何将社会偏见和刻板印象投射到其他人身上的框架,并建立了一个名为 “社会偏见推理语料库” 的数据集来支持大规模建模和评估,分析表明当前最先进的神经模型虽然能够高效地对是否含有不良社会偏见进行分类,但在详细解释社会偏见框架方面并不有效。本研究为今后的研究工作提供了指导,即将结构化的语用推理与社会影响的通识推理相结合。
Nov, 2019
该论文介绍了 StereoSet,一个用于评估英语中预训练语言模型中四种基于性别、职业、种族和宗教的陈规陋习偏见的大规模自然数据集,并评估了 BERT、GPT-2、RoBERTa 和 XLNet 等流行的语言模型在其中的表现,同时呈现了一个有隐藏测试集的排行榜来跟踪未来语言模型的偏见。
Apr, 2020
评估反对仇恨言论的最佳方法,研究将说服模式分为理性、情感和可信度,并评估其在封闭和开放的对话互动中的使用,揭示不同模式在反对仇恨评论和话题层面上的微妙差异以及理性作为说服模式的支持回复更多的潜力。
Mar, 2024