降低仇恨言论检测中的种族偏见

ACLMay, 2020

Demoting Racial Bias in Hate Speech Detection

Mengzhou Xia, Anjalie Field, Yulia Tsvetkov

TL;DR本文研究针对美国非裔英语的歧视在当前仇恨言论数据集中存在的问题，并提出对抗性训练的方法来降低该歧视，实验结果表明该方法可以显著降低美国非裔英语文本的误判率，而对于仇恨言论分类的表现影响很小。

Abstract

In current hate speech datasets, there exists a high correlation between annotators' perceptions of toxicity and signals of african american english (AAE). This →

hate speech african american english bias adversarial training false positive rate

发现论文，激发创造

基于 BERT 模型的社交媒体仇恨言论检测及种族偏见缓解

通过使用预训练语言模型 BERT 进行迁移学习，本文提出了一种在推特上进行种族主义、性别主义、仇恨性或冒犯性内容检测的算法，并将对算法进行合理地裁剪降低出现倾向性的缺陷。

Aug, 2020

毒性和情感分析方法对含非洲裔美国英语表达的偏见的综合视角

在线社交网络中，使用非洲裔美国英语表达可能导致对话者被认为更加有害，即使在几乎相同的主题下讲话。

Jan, 2024

关于仇恨言论和辱骂语言检测数据集中的种族偏见问题

本文研究了五个 Twitter 数据集上使用的基于分类器的识别恶意语言的技术中的种族歧视问题，并在使用这些技术时可能产生的不平等负面影响上发出了警告。

May, 2019

沿着种族、性别和综合交错的轴线分析仇恨言论数据

为了解决仇恨言论不断增长的问题，本文探索了种族、性别交叉轴线上仇恨言论数据集的分析，发现 African American English、男性和 AAE + 男性推文中存在强烈的偏见，BERT 模型会传播这种偏见，但通过平衡训练数据可以实现更公平的性别模型。

May, 2022

标注员态度：标注员信念和身份对有害语言检测的偏见

通过两项在线研究探究了评注者身份和信仰对有毒语言的评注的影响，发现评注者的身份和信仰与有毒性评分之间有很强的关联，表明对有毒语言的注释需要在社会变量中予以情境化考虑，进而提高有毒语言的注释和检测的准确性。

Nov, 2021

自动去偏见检测有害语言面临的挑战

由于文本分类器开发中的偏见关联限制了公平性和准确性，因此我们调查了最近介绍的去偏置方法，作用于检测有毒语言的文本分类数据集和模型，重点关注词汇（例如骂人话、侮辱性言论、身份称谓）和方言标记（特别是非裔美国英语）。我们的全面实验表明，现有的方法在防止当前毒性检测器中出现有偏见的行为方面存在局限性。然后，我们提出了一种自动的方言感知数据校正方法作为概念验证。尽管采用了合成标签，但该方法减少了方言与毒性之间的关联。总的来说，我们的发现表明，在训练有毒性偏见性数据的模型时去偏置并不如简单重标记数据以消除现有偏见有效。

Jan, 2021

一种基于公平性集成框架的毒性语言检测中缓解种族偏见的方法

该论文探讨了在流行的有毒语言数据集中存在针对非裔美国英语用户的种族偏见如何存在，并针对这种偏见提出了使用描述公平度量来更好理解其来源的建议。作者提出了一个基于集成框架的方法来减少这些数据集中的意识形态偏见，并提供了实证证据证明其能够取消针对使用非裔美国英语的作者的注释偏见，同时仅对分类性能产生最小的影响。

Sep, 2021

利用音频分类提高非洲裔美国人英语的语音识别

使用少量的长形式非洲裔美国英语（AAE）数据，通过将分类器输出与地理信息相结合，优化洲外识别器，从而减少 AAE 与 MAE 之间的相对词错误率差异 38.5%，而不降低 MAE 的质量。

Sep, 2023

仇恨言论和辱骂语料库中的交叉偏见

本研究通过对 Twitter 数据集进行分类，发现算法对于辱骂言论和仇恨言论的判别对非裔美国人和非裔男性的偏见较强，这提供了有关算法数据集中交叉偏见的首个系统性证据。

May, 2020

只需要 "爱": 回避仇恨言论检测

该研究在对七种针对仇恨言论检测的最先进模型进行分析后，得出了基于数据类型和标注标准重要性大于模型架构的结论，并证明了字符级特征可以有效抵御自动插入错别字等对抗攻击。

Aug, 2018