Jan, 2021

自动去偏见检测有害语言面临的挑战

TL;DR由于文本分类器开发中的偏见关联限制了公平性和准确性,因此我们调查了最近介绍的去偏置方法,作用于检测有毒语言的文本分类数据集和模型,重点关注词汇(例如骂人话、侮辱性言论、身份称谓)和方言标记(特别是非裔美国英语)。我们的全面实验表明,现有的方法在防止当前毒性检测器中出现有偏见的行为方面存在局限性。然后,我们提出了一种自动的方言感知数据校正方法作为概念验证。尽管采用了合成标签,但该方法减少了方言与毒性之间的关联。总的来说,我们的发现表明,在训练有毒性偏见性数据的模型时去偏置并不如简单重标记数据以消除现有偏见有效。