一种基于公平性集成框架的毒性语言检测中缓解种族偏见的方法

Sep, 2021

一种基于公平性集成框架的毒性语言检测中缓解种族偏见的方法

Mitigating Racial Biases in Toxic Language Detection with an Equity-Based Ensemble Framework

Matan Halevy, Camille Harris, Amy Bruckman, Diyi Yang, Ayanna Howard

TL;DR该论文探讨了在流行的有毒语言数据集中存在针对非裔美国英语用户的种族偏见如何存在，并针对这种偏见提出了使用描述公平度量来更好理解其来源的建议。作者提出了一个基于集成框架的方法来减少这些数据集中的意识形态偏见，并提供了实证证据证明其能够取消针对使用非裔美国英语的作者的注释偏见，同时仅对分类性能产生最小的影响。

Abstract

Recent research has demonstrated how racial biases against users who write african american english exists in popular toxic language datasets. While previous work has focused on a single fairness criteria, we pro

racial biases african american english fairness metrics ensemble-framework annotation biases

发现论文，激发创造

关于仇恨言论和辱骂语言检测数据集中的种族偏见问题

本文研究了五个 Twitter 数据集上使用的基于分类器的识别恶意语言的技术中的种族歧视问题，并在使用这些技术时可能产生的不平等负面影响上发出了警告。

May, 2019

降低仇恨言论检测中的种族偏见

本文研究针对美国非裔英语的歧视在当前仇恨言论数据集中存在的问题，并提出对抗性训练的方法来降低该歧视，实验结果表明该方法可以显著降低美国非裔英语文本的误判率，而对于仇恨言论分类的表现影响很小。

May, 2020

毒性和情感分析方法对含非洲裔美国英语表达的偏见的综合视角

在线社交网络中，使用非洲裔美国英语表达可能导致对话者被认为更加有害，即使在几乎相同的主题下讲话。

Jan, 2024

自动去偏见检测有害语言面临的挑战

由于文本分类器开发中的偏见关联限制了公平性和准确性，因此我们调查了最近介绍的去偏置方法，作用于检测有毒语言的文本分类数据集和模型，重点关注词汇（例如骂人话、侮辱性言论、身份称谓）和方言标记（特别是非裔美国英语）。我们的全面实验表明，现有的方法在防止当前毒性检测器中出现有偏见的行为方面存在局限性。然后，我们提出了一种自动的方言感知数据校正方法作为概念验证。尽管采用了合成标签，但该方法减少了方言与毒性之间的关联。总的来说，我们的发现表明，在训练有毒性偏见性数据的模型时去偏置并不如简单重标记数据以消除现有偏见有效。

Jan, 2021

通过不变量合理化降低有害语言检测中的偏见

通过使用不变量理性化 (InvRat) 方法，我们可以降低对某些语法模式的误判，从而避免使用带有偏见的训练数据集导致毒性过滤器产生偏见，进而加剧群体边缘化的现象。

Jun, 2021

检测孟加拉语种族主义文本：一种集成深度学习框架

利用 NLP 和深度学习技术，在孟加拉语中建立了一个新颖的数据集，进而成功地检测到了种族主义评论，采用了 RNN、LSTM 和 MCNN-LSTM 模型，并利用集成方法提高了整体性能。

Jan, 2024

研究 200 个情感分析系统中的性别和种族偏见

本研究提供了第一个特意设计用于检测系统中不当偏见的基准数据集，即 Equity Evaluation Corpus (EEC)，基于此数据集，我们研究了参加 SemEval-2018 任务 1 的 219 个自动情感分析系统，发现其中多个系统在种族或性别方面存在显著的偏差，结果揭示了自动机器学习系统可能会自发强化和永久化不当偏见或歧视。

May, 2018

标注员态度：标注员信念和身份对有害语言检测的偏见

通过两项在线研究探究了评注者身份和信仰对有毒语言的评注的影响，发现评注者的身份和信仰与有毒性评分之间有很强的关联，表明对有毒语言的注释需要在社会变量中予以情境化考虑，进而提高有毒语言的注释和检测的准确性。

Nov, 2021

基于 BERT 模型的社交媒体仇恨言论检测及种族偏见缓解

通过使用预训练语言模型 BERT 进行迁移学习，本文提出了一种在推特上进行种族主义、性别主义、仇恨性或冒犯性内容检测的算法，并将对算法进行合理地裁剪降低出现倾向性的缺陷。

Aug, 2020

自然语言处理中的种族差异：社交媒体非裔美国英语的案例研究

我们研究了算法公平性领域中的一个重要问题：将来自不同社会群体作者的语言用于自然语言处理算法时质量的差异。我们在研究中着重探讨了当前系统在分析女性和少数族裔群体所使用的语言时出现的问题，证实了在处理非裔美国英语的推文时出现的种族差异，并讨论了该领域的研究意义。

Jun, 2017