Jun, 2024

一个用于豪萨、约鲁巴和伊博语言的冒犯性语言和仇恨言论检测的多语言数据集

TL;DR为了在多语言环境中有效检测网络攻击性言论,本研究使用来自 Twitter 的数据,并通过手动注释创建了三种主要尼日利亚语言(豪萨语、约鲁巴语和伊博语)的侮辱性言论检测的新数据集。我们使用预训练的语言模型评估其在我们的数据集中检测侮辱性言论的有效性,最佳模型的准确率达到 90%。为了进一步支持侮辱性言论检测的研究,我们计划公开数据集和模型。