关于仇恨言论和辱骂语言检测数据集中的种族偏见问题
本研究通过对 Twitter 数据集进行分类,发现算法对于辱骂言论和仇恨言论的判别对非裔美国人和非裔男性的偏见较强,这提供了有关算法数据集中交叉偏见的首个系统性证据。
May, 2020
通过使用预训练语言模型 BERT 进行迁移学习,本文提出了一种在推特上进行种族主义、性别主义、仇恨性或冒犯性内容检测的算法,并将对算法进行合理地裁剪降低出现倾向性的缺陷。
Aug, 2020
本文研究针对美国非裔英语的歧视在当前仇恨言论数据集中存在的问题,并提出对抗性训练的方法来降低该歧视,实验结果表明该方法可以显著降低美国非裔英语文本的误判率,而对于仇恨言论分类的表现影响很小。
May, 2020
本文研究了在 Twitter 上关于仇恨言论和辱骂的数据集,考察了不同的学习模型和额外特征的加入,并得出了使用双向 GRU 网络结合潜在主题聚类模型的最优模型,F1 得分为 0.805。
Aug, 2018
为了解决仇恨言论不断增长的问题,本文探索了种族、性别交叉轴线上仇恨言论数据集的分析,发现 African American English、男性和 AAE + 男性推文中存在强烈的偏见,BERT 模型会传播这种偏见,但通过平衡训练数据可以实现更公平的性别模型。
May, 2022
该论文探讨了在流行的有毒语言数据集中存在针对非裔美国英语用户的种族偏见如何存在,并针对这种偏见提出了使用描述公平度量来更好理解其来源的建议。作者提出了一个基于集成框架的方法来减少这些数据集中的意识形态偏见,并提供了实证证据证明其能够取消针对使用非裔美国英语的作者的注释偏见,同时仅对分类性能产生最小的影响。
Sep, 2021
在线辱骂言语的使用已成为一个日益普遍的问题,对个人和社会造成损害,其影响从心理伤害一直升级到现实暴力甚至死亡。该研究旨在调查在不同语言中的辱骂言语检测中时间偏差的性质和影响,并探索缓解方法。我们评估了不同时间段辱骂数据集上的模型性能。我们的结果表明,时间偏差对辱骂言语检测是一个重大挑战,历史数据训练的模型表现随时间显著下降。我们还从历时的角度对这些辱骂数据集进行了广泛的语言学分析,旨在探索语言演变和性能下降的原因。该研究揭示了辱骂言语检测中时间偏差的普遍问题,为了解语言演变和缓解时间偏差提供了关键的见解。
Sep, 2023
本文研究滥用语言检测模型的偏见问题,通过使用不同的滥用语言数据集和预训练词嵌入和模型架构,分析性别偏见并尝试了三种减轻 偏见的方法:去偏向词嵌入、性别交换数据扩充以及使用更大的语料库进行微调。这些方法有效的降低了性别偏见 90-98%,并且可以扩展到解决其他情况下的偏见问题。
Aug, 2018
在本研究中,我们评估了仇恨言论数据集中的文化偏见,通过利用语言和地理两个互相关联的文化代理。我们对八种语言的仇恨言论数据集进行了系统调查,验证了对其英语偏见的先前研究结果,但也显示出这种偏见在过去几年中逐渐减少。对于英语、阿拉伯语和西班牙语这三种地理分布广泛的语言,我们利用推特的地理元数据来近似地理文化背景,通过将语言和国家信息配对。我们发现这些语言的仇恨言论数据集存在强烈的地理文化偏见,相对于在更广泛的社交媒体人口和讲这些语言的人口中的重要性,它们在很大程度上过度代表了少数几个国家(例如,对于英语来说是美国和英国)。基于这些结果,我们提出了创建未来仇恨言论数据集的建议。
Apr, 2024
此研究使用深度学习技术基于 Twitter 数据,对社交媒体中的仇恨言论、辱骂言论、性别歧视、种族主义与欺凌行为开展综合研究,并提出了一种基于元数据和文本的检测方法,效果优于现有的检测方法。
Feb, 2018