反事实探究情感和特异性对群际偏见的影响

ACLMay, 2023

反事实探究情感和特异性对群际偏见的影响

Counterfactual Probing for the influence of affect and specificity on Intergroup Bias

Venkata S Govindarajan, Kyle Mahowald, David I. Beaver, Junyi Jessy Li

TL;DR本文提出了一个修正过的偏见研究框架，并探讨了不同种族间社交语境下的语言行为与话语两个语用学特征之间是否存在系统地差异。研究发现推理模型可可靠地使用情感特征，但使用特定性特征的模型效果更不确定。

Abstract

While existing work on studying bias in NLP focues on negative or pejorative language use, Govindarajan et al. (2023) offer a revised framing of bias in terms of →

bias intergroup social context language behavior pragmatic features neural models

发现论文，激发创造

关于人际交往的话语：建模普遍的群体偏见和情感

本文提出了一种基于情绪的方法来预测人际群体关系（IGR），研究表明微妙的情感信号表明了不同的偏见，使用美国国会成员的推文数据集，构建了一个被标注为人际情感的数据集，证明神经模型在识别 IGR 上显著优于人类。我们还发现，IGR 和人际感知情感之间的共享编码可以提高两项任务的性能。

Sep, 2022

通过反事实评估减少语言模型中的情感偏见

本文旨在量化并减少语言模型中表现出的情感偏见，该文分析了在给定的条件下（例如写作提示）和语言模型中，引起生成的文本情感发生变化的敏感属性（例如国家名称，职业，性别）的值变化的影响。我们采用公平机器学习文献中的个体和团体公正度量来量化情感偏见，并证明在两种不同的语料库（新闻文章和维基百科）上训练的大规模模型存在相当高的偏见。我们随后提出使用嵌入和情感预测导出的正则化方法，该方法应用于语言模型的潜在表示。该正则化提高了公正度量，同时保持了可比水平的困惑度和语义相似性。

Nov, 2019

超越英语：针对四种语言情感分析偏差的反事实测试

通过构建评估语料库，我们针对四种语言进行了性别、种族和移民偏见的对比评估，揭示了预训练模型对系统所引入的偏见，并提出更针对性的缓解策略。

May, 2023

数据和机器学习算法中种族偏见对用户说服力和歧视性决策的因果影响：实证研究

AI/NLP models trained on racially biased datasets demonstrate various types of bias, raising profound ethical implications regarding the impact of these models on user experience and decision-making due to the presence of racial bias features in datasets. The research implicates a negative influence on users' persuasiveness due to unexplainable discriminatory outcomes, calling for responsible AI frameworks within organizations.

Jan, 2022

关于预训练神经语言模型中偏见性的加强理解：一项调查，特别关注情感偏见

本文针对大型预训练语言模型中的偏差问题进行调研，分析了偏差发生在模型的哪些阶段以及如何量化和减轻影响。尤其是针对情感相关的偏差问题进行了探讨，旨在提供未来研究的参考和挑战。

Apr, 2022

自然语言处理中偏见相关性及其缓解方法的研究

本文通过研究 NLP 模型中三个社会身份（种族、性别和宗教）之间的偏见相关性，提出在对偏见进行改善时需要综合考虑相关的偏见，而不是各自分开处理，以引导更多相关研究

May, 2022

在交叉背景下评估语言模型的偏见态度关联

利用上下文词嵌入的概念投射方法，量化了英语语言模型中社会群体的情感倾向，发现语言模型对性别认同、社会阶级和性取向的信号表现出最有偏见的态度，此方法旨在研究语言模型中的历史偏见，并对设计正义做出贡献，探讨了在语言中被边缘化的群体的相关关系。

Jul, 2023

社会偏见探测：语言模型的公平性基准测试

本研究提出了一种新的框架，用于探索语言模型中的社会偏见，通过采集探索数据集和利用一种新的公平性评分方法，发现语言模型中的偏见更加复杂，并揭示不同宗教身份导致各种模型中最明显的不平等处理。

Nov, 2023

它们是否指的是 ' 我们 '? 解释不同群体偏见中的指代表达

通过在英语体育评论中对隶属群体内外言论（群体偏见）的模型，本文揭示了在社会现象如刻板印象延续和隐性偏见中可能存在的微妙差异。为了大规模分析群体间变化，我们使用 LLMs 进行自动标记，并发现一些 LLMs 最佳工作方式是在评论时使用语言描述赢得概率，而不是数值概率。此外，使用 LLMs 对评论进行大规模标记揭示了在不同赢得概率下区别隶属群体内外言论形式的线性变化。

Jun, 2024

第二次审视的偏见：对德国教育同行评审数据建模偏见的深入挖掘

本文基于德文语料库的数据集，在多个体系结构中通过词嵌入联想测试（WEAT）分析了预先训练的德语语言模型的偏见，发现这些语言模型存在实质性的概念、种族和性别偏见，并且在同伴评审数据的微调中，偏见在概念和种族轴上有显着变化。

Sep, 2022