Apr, 2022

使用监督式机器学习和特征组合检测乌尔都语中的滥用和威胁性语言

TL;DR本文介绍了参加 FIRE Shared Task 2021 的系统描述,该任务旨在自动识别乌尔都语中的滥用和威胁推文,结果显示支持向量机在去除停用词、应用词形还原、使用单词 n-grams (n = 1,2,3) 组合创建的特征矢量的条件下在滥用语言检测的任务上表现最佳,而在威胁语言检测的任务上,使用去除停用词、不应用词形还原、使用预训练的乌尔都语 Word2Vec 创建的特征向量,并使用过 - 采样技术使数据集平衡的支持向量机获得了最佳表现,本文的代码也可用于再现。