用于评估仇恨言论识别中人口统计偏见的多语 Twitter 语料库和基准

Feb, 2020

用于评估仇恨言论识别中人口统计偏见的多语 Twitter 语料库和基准

Multilingual Twitter Corpus and Baselines for Evaluating Demographic Bias in Hate Speech Recognition

Xiaolei Huang, Linzi Xing, Franck Dernoncourt, Michael J. Paul

TL;DR本研究到了关于文档分类模型公平性评估的现有研究，主要使用无作者人口属性基准事实的合成单语言数据。在该工作中，作者们汇编并发布了一个多语言 Twitter 语料库，用于推断作者的四个人口属性：年龄，国家，性别和种族 / 民族。该语料库涵盖了五种语言：英语、意大利语、波兰语、葡萄牙语和西班牙语。我们使用 Figure Eight 的众包平台评估了推断出的人口属性标签的准确性。为了检查可能引起偏见的因素，我们对英语语料库进行了人口预测的实证分析。我们评估了四种流行文档分类器的性能，并评估了基准分类器在作者级人口属性上的公平性和偏见。

Abstract

Existing research on fairness evaluation of document classification models mainly uses synthetic monolingual data without ground truth for author demographic attributes. In this work, we assemble and publish a mu

fairness evaluation document classification models multilingual twitter corpus hate speech detection demographic predictability

发现论文，激发创造

从语言到地理：评估仇恨言论数据集中的文化偏见

在本研究中，我们评估了仇恨言论数据集中的文化偏见，通过利用语言和地理两个互相关联的文化代理。我们对八种语言的仇恨言论数据集进行了系统调查，验证了对其英语偏见的先前研究结果，但也显示出这种偏见在过去几年中逐渐减少。对于英语、阿拉伯语和西班牙语这三种地理分布广泛的语言，我们利用推特的地理元数据来近似地理文化背景，通过将语言和国家信息配对。我们发现这些语言的仇恨言论数据集存在强烈的地理文化偏见，相对于在更广泛的社交媒体人口和讲这些语言的人口中的重要性，它们在很大程度上过度代表了少数几个国家（例如，对于英语来说是美国和英国）。基于这些结果，我们提出了创建未来仇恨言论数据集的建议。

Apr, 2024

沿着种族、性别和综合交错的轴线分析仇恨言论数据

为了解决仇恨言论不断增长的问题，本文探索了种族、性别交叉轴线上仇恨言论数据集的分析，发现 African American English、男性和 AAE + 男性推文中存在强烈的偏见，BERT 模型会传播这种偏见，但通过平衡训练数据可以实现更公平的性别模型。

May, 2022

多语言文本分类中缓解性别偏见的易于适应性

本论文研究在多语言环境下，通过将性别视为领域，利用标准领域适应模型减少性别偏见，提高文本分类器的性能，并在两个文本分类任务中评估方法，证明了该方法的有效性，同时使用三个公平感知的基线进行了实验。

Apr, 2022

多语种和多方面仇恨言论分析

本论文介绍了一种新的多语言多方面仇恨言论分析数据集，并使用它测试当前最先进的多语言多任务学习方法，通过在各种分类环境下评估我们的数据集，我们讨论了如何利用我们的注释以改进仇恨言论的检测和分类。

Aug, 2019

使用现成的情感相关推特分类器研究姓名和困惑中的民族偏见

应用一种方法，量化与各国命名实体相关的偏见。通过对目标领域数据进行微小扰动创造反事实例子，而不是依赖于模板或特定数据集来检测偏见。在包括情感、情绪、仇恨言辞和冒犯性文本的推特数据上应用广泛使用的主观分析分类器，我们的结果表明，与一个国家的语言相关的正向偏见存在于所有研究的分类器中。值得注意的是，句子中特定的国家名称可以强烈影响预测结果，仇恨言辞检测中的变化最高可达 23％，负面情绪（例如愤怒）的预测结果变化最高可达 60％。我们假设这些偏见源于预训练语言模型（PLMs）的训练数据，并发现了英语和巴斯克语、毛利语等未知语言在情感预测和 PLMs 可能性之间的相关性，揭示了明显的模式。此外，我们在同一个句子的反事实例子之间跟踪这些相关性，去除了语法组成部分，发现有趣的结果表明预训练数据对于英语国家名称更为重要。我们的匿名代码可以在 [this https URL]（此处提供）找到。

Jul, 2024

高度泛化的跨语言仇恨言论检测模型

该研究旨在使用多语言数据集进行多语言仇恨言论检测和分类，并通过评估方法和语言无关的嵌入技术提高分类性能。

Jan, 2022

仇恨言论和辱骂语料库中的交叉偏见

本研究通过对 Twitter 数据集进行分类，发现算法对于辱骂言论和仇恨言论的判别对非裔美国人和非裔男性的偏见较强，这提供了有关算法数据集中交叉偏见的首个系统性证据。

May, 2020

基于 BERT 模型的社交媒体仇恨言论检测及种族偏见缓解

通过使用预训练语言模型 BERT 进行迁移学习，本文提出了一种在推特上进行种族主义、性别主义、仇恨性或冒犯性内容检测的算法，并将对算法进行合理地裁剪降低出现倾向性的缺陷。

Aug, 2020

重新审视仇恨言论基准：从数据筛选到系统部署

该研究旨在提出一种名为 GOTHate 的数据集，包含了多语言和多主题，并引入内源信号来增强恶意言论检测任务。作者开发出了一种多语言模型 HEN-mBERT，其通过历史、拓扑和范例等内源信号来改善语义分析。实验结果表明，该模型相较于其他模型提升了 2.5% 的整体宏 F1 值和 5% 的恶意言论 F1 值。

Jun, 2023

关于仇恨言论和辱骂语言检测数据集中的种族偏见问题

本文研究了五个 Twitter 数据集上使用的基于分类器的识别恶意语言的技术中的种族歧视问题，并在使用这些技术时可能产生的不平等负面影响上发出了警告。

May, 2019