基于BERT模型的社交媒体仇恨言论检测及种族偏见缓解

Aug, 2020

基于BERT模型的社交媒体仇恨言论检测及种族偏见缓解

Hate Speech Detection and Racial Bias Mitigation in Social Media based on BERT model

Marzieh Mozafari, Reza Farahbakhsh, Noel Crespi

TL;DR通过使用预训练语言模型BERT进行迁移学习，本文提出了一种在推特上进行种族主义、性别主义、仇恨性或冒犯性内容检测的算法，并将对算法进行合理地裁剪降低出现倾向性的缺陷。

Abstract

Disparate biases associated with datasets and trained classifiers in hateful and abusive content identification tasks have raised many concerns recently. Although the problem of →

发现论文，激发创造

关于仇恨言论和辱骂语言检测数据集中的种族偏见问题

本文研究了五个Twitter数据集上使用的基于分类器的识别恶意语言的技术中的种族歧视问题，并在使用这些技术时可能产生的不平等负面影响上发出了警告。

May, 2019

基于BERT的在线社交媒体仇恨言论检测的迁移学习方法

本研究提出了一种基于BERT和Transfer Learning的新型方案，以捕获社交媒体内容中的仇恨语境，并证明该方案能有效解决标注数据不足和存在偏差的问题，使得模型性能得到提升。

Oct, 2019

使用基于知识的概括去除对仇恨言论检测任务的刻板偏见

针对社交媒体平台上不断增加的仇恨言论传播案例，本文提出了一种基于知识的泛化学习方法，旨在从无结构的文本数据中去除偏差和刻板化的词语，以实现偏差性言论的检测和控制。实验结果表明，与基于传统偏差去除方法的分类器相比，使用本文所提出的方法获得了更好的性能和偏差缓解效果。

Jan, 2020

仇恨言论和辱骂语料库中的交叉偏见

本研究通过对 Twitter 数据集进行分类，发现算法对于辱骂言论和仇恨言论的判别对非裔美国人和非裔男性的偏见较强，这提供了有关算法数据集中交叉偏见的首个系统性证据。

May, 2020

沿着种族、性别和综合交错的轴线分析仇恨言论数据

为了解决仇恨言论不断增长的问题，本文探索了种族、性别交叉轴线上仇恨言论数据集的分析，发现 African American English、男性和 AAE+男性推文中存在强烈的偏见，BERT 模型会传播这种偏见，但通过平衡训练数据可以实现更公平的性别模型。

May, 2022

传递爱而不是仇恨：削弱仇恨预训练对于仇恨言论检测的重要性

本文研究了针对原本有恶意情绪的文本进行预训练是否为识别恶意言论最佳的预训练方法，结果表明从目标领域的非恶意文本进行预训练可以提供类似或更好的结果，同时介绍了第一批公开开放的印度语Hindi和Marathi的基于BERT的分类模型 HindTweetBERT 和 MahaTweetBERT 。

Oct, 2022

社交媒体中的强韧仇恨言论检测: 跨数据集实证评估

针对在线仇恨言论的自动检测是NLP领域的一个研究热点。本文通过对不同的仇恨言论检测数据集进行微调，分析了数据集通用性的差异，并证明了数据集的组合能够促进强大的仇恨言论检测模型的发展。

Jul, 2023

在线仇恨言论检测的差距弥合: X/Twitter 上对同性恋内容的 BERT 与传统模型的比较分析

我们的研究通过关注同性恋恶言，填补了在线仇恨言论检测研究中的一个重要空白。通过利用先进的情感分析模型，尤其是BERT，和传统的机器学习方法，我们开发出了一个细致入微的方法来识别X/Twitter上的同性恋恶言内容。这项研究具有重要意义，因为同性恋恶言在检测模型中一直存在较低的代表性。我们的发现表明，虽然BERT优于传统方法，但验证技术的选择会影响模型的性能。这凸显了在检测微妙仇恨言论时上下文理解的重要性。通过发布我们所了解到的关于同性恋恶言检测的最大开源标记英文数据集，分析各种模型的性能和我们最强的基于BERT的模型，我们旨在提高在线安全性和包容性。未来的工作将扩展到更广泛的LGBTQIA+仇恨言论检测，解决多样性数据集来源的挑战。通过这一努力，我们为打击在线仇恨言论作出贡献，倡导更包容的数字景观。我们的研究不仅为改进先前研究结果提供了有关有效检测同性恋恶言内容的见解，而且为未来仇恨言论分析的进一步发展奠定了基础。

May, 2024

探索大型语言模型中的注释者偏见对仇恨言论检测的影响

通过分析GPT 3.5和GPT 4o在标注仇恨言论数据时存在的偏见，本研究对性别、种族、宗教和残疾等四个主要类别中高度脆弱的群体进行了偏见分析，并通过对标注数据的仔细审查，全面研究了可能导致这些偏见的潜在因素。该研究为指导研究人员和从业者充分利用大语言模型进行数据标注，从而推进这一关键领域的进展提供重要资源。

Jun, 2024

自然语言处理中的偏见检测与分类研究

本研究解决了自然语言处理领域模型受人类偏见影响的问题，尽管近年来对此现象的研究日益增多，但相关资源仍然相对匮乏。我们的创新方法是整合公开数据集以更有效地训练仇恨言论检测和分类模型，并分析数据集中的主要问题，研究表明不同数据集的组合对模型性能产生显著影响。

Aug, 2024