基于BERT模型的社交媒体仇恨言论检测及种族偏见缓解
本文研究了五个Twitter数据集上使用的基于分类器的识别恶意语言的技术中的种族歧视问题,并在使用这些技术时可能产生的不平等负面影响上发出了警告。
May, 2019
本研究提出了一种基于BERT和Transfer Learning的新型方案,以捕获社交媒体内容中的仇恨语境,并证明该方案能有效解决标注数据不足和存在偏差的问题,使得模型性能得到提升。
Oct, 2019
针对社交媒体平台上不断增加的仇恨言论传播案例,本文提出了一种基于知识的泛化学习方法,旨在从无结构的文本数据中去除偏差和刻板化的词语,以实现偏差性言论的检测和控制。实验结果表明,与基于传统偏差去除方法的分类器相比,使用本文所提出的方法获得了更好的性能和偏差缓解效果。
Jan, 2020
本研究通过对 Twitter 数据集进行分类,发现算法对于辱骂言论和仇恨言论的判别对非裔美国人和非裔男性的偏见较强,这提供了有关算法数据集中交叉偏见的首个系统性证据。
May, 2020
为了解决仇恨言论不断增长的问题,本文探索了种族、性别交叉轴线上仇恨言论数据集的分析,发现 African American English、男性和 AAE+男性推文中存在强烈的偏见,BERT 模型会传播这种偏见,但通过平衡训练数据可以实现更公平的性别模型。
May, 2022
本文研究了针对原本有恶意情绪的文本进行预训练是否为识别恶意言论最佳的预训练方法,结果表明从目标领域的非恶意文本进行预训练可以提供类似或更好的结果,同时介绍了第一批公开开放的印度语Hindi和Marathi的基于BERT的分类模型 HindTweetBERT 和 MahaTweetBERT 。
Oct, 2022
针对在线仇恨言论的自动检测是NLP领域的一个研究热点。本文通过对不同的仇恨言论检测数据集进行微调,分析了数据集通用性的差异,并证明了数据集的组合能够促进强大的仇恨言论检测模型的发展。
Jul, 2023
我们的研究通过关注同性恋恶言,填补了在线仇恨言论检测研究中的一个重要空白。通过利用先进的情感分析模型,尤其是BERT,和传统的机器学习方法,我们开发出了一个细致入微的方法来识别X/Twitter上的同性恋恶言内容。这项研究具有重要意义,因为同性恋恶言在检测模型中一直存在较低的代表性。我们的发现表明,虽然BERT优于传统方法,但验证技术的选择会影响模型的性能。这凸显了在检测微妙仇恨言论时上下文理解的重要性。通过发布我们所了解到的关于同性恋恶言检测的最大开源标记英文数据集,分析各种模型的性能和我们最强的基于BERT的模型,我们旨在提高在线安全性和包容性。未来的工作将扩展到更广泛的LGBTQIA+仇恨言论检测,解决多样性数据集来源的挑战。通过这一努力,我们为打击在线仇恨言论作出贡献,倡导更包容的数字景观。我们的研究不仅为改进先前研究结果提供了有关有效检测同性恋恶言内容的见解,而且为未来仇恨言论分析的进一步发展奠定了基础。
May, 2024
通过分析GPT 3.5和GPT 4o在标注仇恨言论数据时存在的偏见,本研究对性别、种族、宗教和残疾等四个主要类别中高度脆弱的群体进行了偏见分析,并通过对标注数据的仔细审查,全面研究了可能导致这些偏见的潜在因素。该研究为指导研究人员和从业者充分利用大语言模型进行数据标注,从而推进这一关键领域的进展提供重要资源。
Jun, 2024
本研究解决了自然语言处理领域模型受人类偏见影响的问题,尽管近年来对此现象的研究日益增多,但相关资源仍然相对匮乏。我们的创新方法是整合公开数据集以更有效地训练仇恨言论检测和分类模型,并分析数据集中的主要问题,研究表明不同数据集的组合对模型性能产生显著影响。
Aug, 2024