NaijaHate: 用代表性数据评估尼日利亚推特上的仇恨言论检测

Mar, 2024

NaijaHate: 用代表性数据评估尼日利亚推特上的仇恨言论检测

NaijaHate: Evaluating Hate Speech Detection on Nigerian Twitter Using Representative Data

Manuel Tonneau, Pedro Vitor Quinta de Castro, Karim Lasri, Ibrahim Farouq, Lakshminarayanan Subramanian...

TL;DR通过引入 NaijaHate 数据集、提出 NaijaXLM-T 模型以及使用领域自适应预训练和微调的方法，我们展示了针对恶意言论检测 (HSD) 在低资源环境中进行系统保护的重要性，同时揭示了在偏见数据集上评估 HSD 会严重高估其在真实环境中的性能，并表明在尼日利亚推特上进行人为辅助的内容审核可以有效减少恶意内容。

Abstract

To address the global issue of hateful content proliferating in online platforms, hate speech detection (HSD) models are typically developed on datasets collected in the United States, thereby failing to generalize to English dialects from the Majority World. Furthermore, HSD models ar

hate speech detection naijahate dataset naijaxlm-t domain-adaptive pretraining content moderation

发现论文，激发创造

社交媒体中的强韧仇恨言论检测：跨数据集实证评估

针对在线仇恨言论的自动检测是 NLP 领域的一个研究热点。本文通过对不同的仇恨言论检测数据集进行微调，分析了数据集通用性的差异，并证明了数据集的组合能够促进强大的仇恨言论检测模型的发展。

Jul, 2023

基于 BERT 模型的社交媒体仇恨言论检测及种族偏见缓解

通过使用预训练语言模型 BERT 进行迁移学习，本文提出了一种在推特上进行种族主义、性别主义、仇恨性或冒犯性内容检测的算法，并将对算法进行合理地裁剪降低出现倾向性的缺陷。

Aug, 2020

跨领域迁移的大规模仇恨言论检测

本文研究 hate speech detection 模型的性能，构建了涵盖五个领域的大规模推文数据集，并利用变换器等算法，获得了至少 5%（英文）和 10%（土耳其语）的性能提升，在不同培训规模下具有强大的可扩展性和跨领域转移能力。

Mar, 2022

HateCheckHIn：对印地语仇恨言论检测模型的评估

针对社交媒体中存在的多语言仇恨言论，本文提出了一种针对多语言仇恨言论模型的功能集，被用于对现有模型的诊断分析。通过以印地语为基础语言，构建了 HateCheckHIn 评估数据集，测试了最先进的基于 Transformer 的 m-BERT 模型以及 Perspective API。

Apr, 2022

使用预训练语言模型和数据增强的集成方法进行阿拉伯推文中的仇恨言论检测

利用集成学习和半监督学习，基于先前手动标记的数据，提出了一种新的方法来解决阿拉伯推文的仇恨言论分类任务，并通过对标记的阿拉伯推文进行分类实验，实验证明：（1）基于预训练语言模型的集成学习优于现有相关工作；（2）我们提出的数据增强方法改进了阿拉伯推文中仇恨言论检测的准确性，并优于现有相关工作。我们的主要贡献是在阿拉伯语仇恨言论检测中取得了鼓舞人心的结果。

Jul, 2024

重新审视仇恨言论基准：从数据筛选到系统部署

该研究旨在提出一种名为 GOTHate 的数据集，包含了多语言和多主题，并引入内源信号来增强恶意言论检测任务。作者开发出了一种多语言模型 HEN-mBERT，其通过历史、拓扑和范例等内源信号来改善语义分析。实验结果表明，该模型相较于其他模型提升了 2.5% 的整体宏 F1 值和 5% 的恶意言论 F1 值。

Jun, 2023

揭示印度选举活动期间的政治仇恨言论：一个新的低资源数据集和基线

本文介绍了一个新数据集 IEHate，该数据集包含 11,457 个手动注释的印地语推文，主要研究议会选举中的仇恨言论检测问题，并使用多种机器学习、深度学习和变形器算法来检测和分析数据集，结果表明在低资源语言中进行恶意言论检测任重道远，需要更先进的技术，并强调了在恶意言论检测中同时应该使用人工和自动化方法。

Jun, 2023

基于 Transformer 深度学习的多语种仇恨言论分析与检测

使用基于 Transformer 模型的算法来检测社交媒体上的仇恨言论，无论语言如意大利语、英语、德语还是孟加拉语，该模型的检测准确率较现有基准和最先进模型提高，其成功率达到了 89%（孟加拉语）、91%（英语和德语）以及 77%（意大利语）

Jan, 2024

构建仇恨言论检测数据集的挑战

通过对针对性别少数群体的仇恨言论的具体例子，本文分析了仇恨言论检测所面临的问题，并提出了一个以数据为中心的综合框架，以跨七个广泛的维度来概括数据创建流程，同时指出实践者将从按照该框架来创建未来的仇恨言论数据集中获益。

Sep, 2023

一个用于豪萨、约鲁巴和伊博语言的冒犯性语言和仇恨言论检测的多语言数据集

为了在多语言环境中有效检测网络攻击性言论，本研究使用来自 Twitter 的数据，并通过手动注释创建了三种主要尼日利亚语言（豪萨语、约鲁巴语和伊博语）的侮辱性言论检测的新数据集。我们使用预训练的语言模型评估其在我们的数据集中检测侮辱性言论的有效性，最佳模型的准确率达到 90％。为了进一步支持侮辱性言论检测的研究，我们计划公开数据集和模型。

Jun, 2024