在线仇恨言论检测的差距弥合: X/Twitter 上对同性恋内容的 BERT 与传统模型的比较分析

May, 2024

在线仇恨言论检测的差距弥合: X/Twitter 上对同性恋内容的 BERT 与传统模型的比较分析

Bridging the gap in online hate speech detection: a comparative analysis of BERT and traditional models for homophobic content identification on X/Twitter

HTML

PDF

Josh McGiff, Nikola S. Nikolov

TL;DR我们的研究通过关注同性恋恶言，填补了在线仇恨言论检测研究中的一个重要空白。通过利用先进的情感分析模型，尤其是BERT，和传统的机器学习方法，我们开发出了一个细致入微的方法来识别X/Twitter上的同性恋恶言内容。这项研究具有重要意义，因为同性恋恶言在检测模型中一直存在较低的代表性。我们的发现表明，虽然BERT优于传统方法，但验证技术的选择会影响模型的性能。这凸显了在检测微妙仇恨言论时上下文理解的重要性。通过发布我们所了解到的关于同性恋恶言检测的最大开源标记英文数据集，分析各种模型的性能和我们最强的基于BERT的模型，我们旨在提高在线安全性和包容性。未来的工作将扩展到更广泛的LGBTQIA+仇恨言论检测，解决多样性数据集来源的挑战。通过这一努力，我们为打击在线仇恨言论作出贡献，倡导更包容的数字景观。我们的研究不仅为改进先前研究结果提供了有关有效检测同性恋恶言内容的见解，而且为未来仇恨言论分析的进一步发展奠定了基础。

Abstract

Our study addresses a significant gap in online hate speech detection research by focusing on homophobia, an area often neglected in sentiment an

发现论文，激发创造

基于BERT的在线社交媒体仇恨言论检测的迁移学习方法

本研究提出了一种基于BERT和Transfer Learning的新型方案，以捕获社交媒体内容中的仇恨语境，并证明该方案能有效解决标注数据不足和存在偏差的问题，使得模型性能得到提升。

Oct, 2019

基于BERT模型的社交媒体仇恨言论检测及种族偏见缓解

通过使用预训练语言模型BERT进行迁移学习，本文提出了一种在推特上进行种族主义、性别主义、仇恨性或冒犯性内容检测的算法，并将对算法进行合理地裁剪降低出现倾向性的缺陷。

Aug, 2020

HateXplain: 可解释仇恨言论检测的基准数据集

本文介绍了 HateXplain，这是一项针对多个问题方面的第一个基准仇恨言论数据集，使用基本、常用的 3 级分类、目标社区和理由对数据集中的每个帖子进行了注释。我们利用现有的最先进模型观察到，即使在分类方面表现非常好的模型在模型合理性和忠实度等可解释度指标上也得分不高。此外，我们还观察到，利用人类理由进行训练的模型在减少对目标社区的非预期偏见方面表现更好。

Dec, 2020

建立仇恨言论检测数据集的信息检索方法

通过信息检索领域的标准方法，采用池化和主动学习技术及任务分解和注释说明技巧，构建了一个更全面的针对 Twitter 中仇恨言论检测的基准数据集，并显示了现有检测模型在这些更广泛的仇恨形式测试中准确度的显著下降。

Jun, 2021

潜在的仇恨：理解隐含仇恨言论的基准

本文介绍了一种基于理论的隐含仇恨言论分类系统和一个包含细粒度标签的基准语料库来填补现有研究关注的漏洞。研究通过对数据集的系统分析来探讨隐含仇恨言论识别和解释的挑战，并阐述了关键特征。这个数据集将继续作为一个有用的基准，用于理解这个多方面的问题。

Sep, 2021

基于预训练语言模型检测社交媒体评论中的恐同和恐Trans现象

本文介绍了我们基于转换器模型的LT-EDI共享任务中用于检测社交媒体评论中的恐同和仇视跨性别内容的系统，使用mBERT等模型，并通过数据增强技术处理类别不平衡问题，代码已开源。在英语、泰米尔语和泰米尔语-英语子任务中，我们的排名分别为9、6、3，宏平均F1得分为0.42、0.64和0.58。

Mar, 2022

解释性和高性能的仇恨和冒犯性言论检测

该研究建立了一个基于XGBoost算法的可解释且易于理解的模型（使用Twitter数据）来检测社交媒体平台上的仇恨言论和冒犯性言论，并通过Shapley Additive Explanations（SHAP）方法，使得模型能够解释和解读其输出结果。该模型的F1得分高于LSTM，AutoGluon和ULMFiT模型。

Jun, 2022

利用HateXplain和BERT探索仇恨言论检测

HateXplain采用注释的句子片段、言论分类和针对性群体，使分类更像人类，更易于解释、更准确、更少偏见。我们将BERT调整为使用rationales和类别预测进行此任务，并比较了我们在准确性、可解释性和偏见方面的不同指标上的表现。我们的新颖之处在于三个方面，首先，我们使用不同重要性值的合并rationale类损失进行实验。其次，我们在rationales上广泛实验了ground truth attention值。第三，为了提高我们的模型中的无意偏见，我们使用了目标社区单词的屏蔽，并记录了偏见和可解释性指标的改善。总的来说，我们成功地实现了模型的可解释性、偏见消除，并在原始BERT实现上取得了几项增量改进。

Aug, 2022

传递爱而不是仇恨：削弱仇恨预训练对于仇恨言论检测的重要性

本文研究了针对原本有恶意情绪的文本进行预训练是否为识别恶意言论最佳的预训练方法，结果表明从目标领域的非恶意文本进行预训练可以提供类似或更好的结果，同时介绍了第一批公开开放的印度语Hindi和Marathi的基于BERT的分类模型 HindTweetBERT 和 MahaTweetBERT 。

Oct, 2022

社交媒体中的强韧仇恨言论检测: 跨数据集实证评估

针对在线仇恨言论的自动检测是NLP领域的一个研究热点。本文通过对不同的仇恨言论检测数据集进行微调，分析了数据集通用性的差异，并证明了数据集的组合能够促进强大的仇恨言论检测模型的发展。

Jul, 2023