反事实探究情感和特异性对群际偏见的影响
本文提出了一种基于情绪的方法来预测人际群体关系(IGR),研究表明微妙的情感信号表明了不同的偏见,使用美国国会成员的推文数据集,构建了一个被标注为人际情感的数据集,证明神经模型在识别 IGR 上显著优于人类。我们还发现,IGR 和人际感知情感之间的共享编码可以提高两项任务的性能。
Sep, 2022
本文旨在量化并减少语言模型中表现出的情感偏见,该文分析了在给定的条件下(例如写作提示)和语言模型中,引起生成的文本情感发生变化的敏感属性(例如国家名称,职业,性别)的值变化的影响。我们采用公平机器学习文献中的个体和团体公正度量来量化情感偏见,并证明在两种不同的语料库(新闻文章和维基百科)上训练的大规模模型存在相当高的偏见。我们随后提出使用嵌入和情感预测导出的正则化方法,该方法应用于语言模型的潜在表示。该正则化提高了公正度量,同时保持了可比水平的困惑度和语义相似性。
Nov, 2019
通过构建评估语料库,我们针对四种语言进行了性别、种族和移民偏见的对比评估,揭示了预训练模型对系统所引入的偏见,并提出更针对性的缓解策略。
May, 2023
AI/NLP models trained on racially biased datasets demonstrate various types of bias, raising profound ethical implications regarding the impact of these models on user experience and decision-making due to the presence of racial bias features in datasets. The research implicates a negative influence on users' persuasiveness due to unexplainable discriminatory outcomes, calling for responsible AI frameworks within organizations.
Jan, 2022
本文针对大型预训练语言模型中的偏差问题进行调研,分析了偏差发生在模型的哪些阶段以及如何量化和减轻影响。尤其是针对情感相关的偏差问题进行了探讨,旨在提供未来研究的参考和挑战。
Apr, 2022
本文通过研究 NLP 模型中三个社会身份(种族、性别和宗教)之间的偏见相关性,提出在对偏见进行改善时需要综合考虑相关的偏见,而不是各自分开处理,以引导更多相关研究
May, 2022
利用上下文词嵌入的概念投射方法,量化了英语语言模型中社会群体的情感倾向,发现语言模型对性别认同、社会阶级和性取向的信号表现出最有偏见的态度,此方法旨在研究语言模型中的历史偏见,并对设计正义做出贡献,探讨了在语言中被边缘化的群体的相关关系。
Jul, 2023
本研究提出了一种新的框架,用于探索语言模型中的社会偏见,通过采集探索数据集和利用一种新的公平性评分方法,发现语言模型中的偏见更加复杂,并揭示不同宗教身份导致各种模型中最明显的不平等处理。
Nov, 2023
通过在英语体育评论中对隶属群体内外言论(群体偏见)的模型,本文揭示了在社会现象如刻板印象延续和隐性偏见中可能存在的微妙差异。为了大规模分析群体间变化,我们使用 LLMs 进行自动标记,并发现一些 LLMs 最佳工作方式是在评论时使用语言描述赢得概率,而不是数值概率。此外,使用 LLMs 对评论进行大规模标记揭示了在不同赢得概率下区别隶属群体内外言论形式的线性变化。
Jun, 2024
本文基于德文语料库的数据集,在多个体系结构中通过词嵌入联想测试(WEAT)分析了预先训练的德语语言模型的偏见,发现这些语言模型存在实质性的概念、种族和性别偏见,并且在同伴评审数据的微调中,偏见在概念和种族轴上有显着变化。
Sep, 2022