降低仇恨言论检测中的种族偏见
通过使用预训练语言模型 BERT 进行迁移学习,本文提出了一种在推特上进行种族主义、性别主义、仇恨性或冒犯性内容检测的算法,并将对算法进行合理地裁剪降低出现倾向性的缺陷。
Aug, 2020
本文研究了五个 Twitter 数据集上使用的基于分类器的识别恶意语言的技术中的种族歧视问题,并在使用这些技术时可能产生的不平等负面影响上发出了警告。
May, 2019
为了解决仇恨言论不断增长的问题,本文探索了种族、性别交叉轴线上仇恨言论数据集的分析,发现 African American English、男性和 AAE + 男性推文中存在强烈的偏见,BERT 模型会传播这种偏见,但通过平衡训练数据可以实现更公平的性别模型。
May, 2022
通过两项在线研究探究了评注者身份和信仰对有毒语言的评注的影响,发现评注者的身份和信仰与有毒性评分之间有很强的关联,表明对有毒语言的注释需要在社会变量中予以情境化考虑,进而提高有毒语言的注释和检测的准确性。
Nov, 2021
由于文本分类器开发中的偏见关联限制了公平性和准确性,因此我们调查了最近介绍的去偏置方法,作用于检测有毒语言的文本分类数据集和模型,重点关注词汇(例如骂人话、侮辱性言论、身份称谓)和方言标记(特别是非裔美国英语)。我们的全面实验表明,现有的方法在防止当前毒性检测器中出现有偏见的行为方面存在局限性。然后,我们提出了一种自动的方言感知数据校正方法作为概念验证。尽管采用了合成标签,但该方法减少了方言与毒性之间的关联。总的来说,我们的发现表明,在训练有毒性偏见性数据的模型时去偏置并不如简单重标记数据以消除现有偏见有效。
Jan, 2021
该论文探讨了在流行的有毒语言数据集中存在针对非裔美国英语用户的种族偏见如何存在,并针对这种偏见提出了使用描述公平度量来更好理解其来源的建议。作者提出了一个基于集成框架的方法来减少这些数据集中的意识形态偏见,并提供了实证证据证明其能够取消针对使用非裔美国英语的作者的注释偏见,同时仅对分类性能产生最小的影响。
Sep, 2021
使用少量的长形式非洲裔美国英语(AAE)数据,通过将分类器输出与地理信息相结合,优化洲外识别器,从而减少 AAE 与 MAE 之间的相对词错误率差异 38.5%,而不降低 MAE 的质量。
Sep, 2023
本研究通过对 Twitter 数据集进行分类,发现算法对于辱骂言论和仇恨言论的判别对非裔美国人和非裔男性的偏见较强,这提供了有关算法数据集中交叉偏见的首个系统性证据。
May, 2020
该研究在对七种针对仇恨言论检测的最先进模型进行分析后,得出了基于数据类型和标注标准重要性大于模型架构的结论,并证明了字符级特征可以有效抵御自动插入错别字等对抗攻击。
Aug, 2018