使用现成的情感相关推特分类器研究姓名和困惑中的民族偏见

Jul, 2024

使用现成的情感相关推特分类器研究姓名和困惑中的民族偏见

A Study of Nationality Bias in Names and Perplexity using Off-the-Shelf Affect-related Tweet Classifiers

Valentin Barriere, Sebastian Cifuentes

TL;DR应用一种方法，量化与各国命名实体相关的偏见。通过对目标领域数据进行微小扰动创造反事实例子，而不是依赖于模板或特定数据集来检测偏见。在包括情感、情绪、仇恨言辞和冒犯性文本的推特数据上应用广泛使用的主观分析分类器，我们的结果表明，与一个国家的语言相关的正向偏见存在于所有研究的分类器中。值得注意的是，句子中特定的国家名称可以强烈影响预测结果，仇恨言辞检测中的变化最高可达23％，负面情绪（例如愤怒）的预测结果变化最高可达60％。我们假设这些偏见源于预训练语言模型（PLMs）的训练数据，并发现了英语和巴斯克语、毛利语等未知语言在情感预测和PLMs可能性之间的相关性，揭示了明显的模式。此外，我们在同一个句子的反事实例子之间跟踪这些相关性，去除了语法组成部分，发现有趣的结果表明预训练数据对于英语国家名称更为重要。我们的匿名代码可以在[this https URL]（此处提供）找到。

Abstract

In this paper, we apply a method to quantify biases associated with named entities from various countries. We create counterfactual examples