一个用于豪萨、约鲁巴和伊博语言的冒犯性语言和仇恨言论检测的多语言数据集

Jun, 2024

一个用于豪萨、约鲁巴和伊博语言的冒犯性语言和仇恨言论检测的多语言数据集

A multilingual dataset for offensive language and hate speech detection for hausa, yoruba and igbo languages

Saminu Mohammad Aliyu, Gregory Maksha Wajiga, Muhammad Murtala

TL;DR为了在多语言环境中有效检测网络攻击性言论，本研究使用来自 Twitter 的数据，并通过手动注释创建了三种主要尼日利亚语言（豪萨语、约鲁巴语和伊博语）的侮辱性言论检测的新数据集。我们使用预训练的语言模型评估其在我们的数据集中检测侮辱性言论的有效性，最佳模型的准确率达到 90％。为了进一步支持侮辱性言论检测的研究，我们计划公开数据集和模型。

Abstract

The proliferation of online offensive language necessitates the development of effective detection mechanisms, especially in multilingual contexts. This study addresses the challenge by developing and introducing

online offensive language multilingual contexts offensive language detection nigerian languages pre-trained language models

发现论文，激发创造

NaijaSenti: 面向多语种情感分析的尼日利亚推特情感语料库

介绍了首个针对尼日利亚四种最常用语言（豪萨语、伊博语、尼日利亚皮钦语、约鲁巴语）的大规模人工标注推特情感数据集，并对收集、处理和标注的方法进行了说明。同时对预训练模型和迁移策略进行了评估，并发布数据集、训练模型、情感词典和代码以促进对低资源语言情感分析的研究。

Jan, 2022

多语言仇恨言论检测的深度学习模型

本研究从 16 个数据来源的 9 种语言中进行大规模的多语言仇恨言论分析，发现在低资源设置下，使用 LASER 嵌入和逻辑回归的简单模型性能最佳，在高资源设置下，BERT 模型表现更好。对于零样本分类，意大利语和葡萄牙语取得了良好的效果。我们提出的框架可用作低资源语言的高效解决方案，并可作为未来多语言仇恨言论检测任务的良好基准。我们已公开了我们的代码和实验设置供其他研究人员使用。

Apr, 2020

低资源语言中的冒犯和威胁性在线内容检测

这项研究旨在解决 Hausa 这种计算语言学的低资源语言缺乏相关 NLP 任务支持的问题，通过进行用户研究、收集数据集并开发检测系统，发现宗教和政治相关话题中存在相当多的冒犯和威胁内容，并建议各方参与了解当地习惯和人口统计来开发更有效的检测系统，以便实施有针对性的调控策略，创造一个安全和包容的在线环境。

Nov, 2023

NaijaHate: 用代表性数据评估尼日利亚推特上的仇恨言论检测

通过引入 NaijaHate 数据集、提出 NaijaXLM-T 模型以及使用领域自适应预训练和微调的方法，我们展示了针对恶意言论检测 (HSD) 在低资源环境中进行系统保护的重要性，同时揭示了在偏见数据集上评估 HSD 会严重高估其在真实环境中的性能，并表明在尼日利亚推特上进行人为辅助的内容审核可以有效减少恶意内容。

Mar, 2024

EkoHate: 针对尼日利亚 Twitter 上政治讨论的混合代码的辱骂性语言和仇恨言论检测

我们通过分析推特数据集，以二分类和四分类注释方式，对尼日利亚政治讨论中的辱骂性言论和仇恨言论进行了检测，并在监督学习和跨语言迁移学习设置下进行了实证评估，结果显示我们可以实现 95.1 和 70.3 的 F1 分数，同时我们还展示了我们的数据集在其他地区的政治讨论中具有很好的泛化能力。

Apr, 2024

利用预训练的句子变换器在印度语言中进行冒犯性语言检测

我们的研究探讨了恶意言论检测领域，特别关注孟加拉语、阿萨姆语和古吉拉特语这三种资源匮乏的印度语言。我们通过 HASOC 2023 数据集对预训练的 BERT 和 SBERT 模型进行微调，评估它们在恶意言论识别中的有效性。研究发现，单语句 BERT 模型表现出卓越的优势，特别是在孟加拉语方面表现最佳。然而，阿萨姆语和古吉拉特语的性能仍有改进的机会。我们的目标是通过打击恶意言论的泛滥来促进包容性的在线空间。

Oct, 2023

HateMonitors：社交媒体语言无关的滥用检测

本文介绍了我们基于梯度提升机、BERT 和 LASER 嵌入式开发的 HateMonitor 模型，在 Indo-European Languages HASOC（FIRE 2019 的任务之一）中排名第一，用于令人讨厌和令人反感的内容识别。

Sep, 2019

减轻人为偏见的冒犯性语言检测的语言模式开发

通过语言数据扩增方法，减少标注过程中的偏见，借助机器的力量提高标注过程的准确性和公平性，以改善跨多种语言的冒犯性语言分类任务，并减少社交媒体上冒犯性内容的传播。

Dec, 2023

低资源语言的多语种攻击性语言识别

通过跨语境词嵌入和迁移学习，将预测扩展到低资源语言中，为即将面临的恶意内容提供了解决方案。

May, 2021

跨语言归纳迁移学习用于检测攻击性语言

本文采用跨语言归纳方法基于上下文的词嵌入模型 XLM-RoBERTa 检测跨语言社交媒体中的冒犯性语言，实验结果表明我们的模型在五种语言中表现竞争力，并在零 - shot 学习环境下显示出可扩展性。

Jul, 2020