印地语敌对检测数据集
本篇文章提出了一种基于转移学习的方法,使用专注力预训练模型进行细分任务分类,将社交媒体文章分类为敌对与非敌对,并进一步分析其情感类型:仇恨、虚假、诽谤和冒犯。这种方法在印第语文本数据上进行 fine-tuned,并在 CONSTRAINT-2021 共享任务中表现出色。
Jan, 2021
研究采用基于 mBERT 的神经网络技术,对资源受限的印地语社交媒体上的言论进行多标签分类,结果表明该模型的绩效超过了现有的基准模型,成为了印地语言领域检测敌意的最佳模型。
Jan, 2021
本文介绍了 AAAI-2021 CONSTRAINT 共享任务中开发的系统,包括在英语中检测 COVID19 虚假新闻和在印地语中检测敌对帖子。该研究使用 SVM,CNN,BiLSTM 和 CNN+BiLSTM 等技术进行分类任务,结果表明 SVM 在使用 tf-idf 特征方面在 task-A 测试集上实现了最高的 94.39%加权 $f_1$ 分数。标签功率集 SVM 使用 n-gram 特征在 task-B 测试集上获得了 86.03%的粗分类和 50.98%的细分类 $f_1$ 分数。
Jan, 2021
本文针对社交媒体上孟加拉语仇恨言论检测的挑战,通过众包标注和专家验证构建了一个包含 30,000 条用户评论的数据集,并利用多个深度学习模型对其进行了实验。结果表明将 SVM 用于该数据集能够获得 87.5% 的准确率,该数据集将推动孟加拉语仇恨言论检测领域的未来研究机会。
Dec, 2020
本文介绍了一个新数据集 IEHate,该数据集包含 11,457 个手动注释的印地语推文,主要研究议会选举中的仇恨言论检测问题,并使用多种机器学习、深度学习和变形器算法来检测和分析数据集,结果表明在低资源语言中进行恶意言论检测任重道远,需要更先进的技术,并强调了在恶意言论检测中同时应该使用人工和自动化方法。
Jun, 2023
本文介绍了一种使用多个标签注释恶意在线言论的方法,强调了注释应该是细致、准确的。作者发布了一个高质量的数据集,使用六个标签注释了超过 40,000 条有关移民的推文,在此数据集上训练模型的表现优于基准数据集。
Oct, 2022
本文介绍一种新的多语言仇恨言论分析数据集,涵盖了英语、印地语、阿拉伯语、法语、德语和西班牙语等六种语言,针对辱骂、种族主义、性别歧视、宗教仇视和极端主义等五大领域进行多角度分类,采用多任务学习方法对数据进行测试,以期提高仇恨言论检测和分类的准确性。
Apr, 2023
该研究论文介绍了一个新的 Bangla HS 数据集 BD-SHS,包含了不同社交环境下的冒犯语言,通过使用具有代表性的语料库训练不同的扩展分类算法,提高了识别准确率。
Jun, 2022
本研究针对 Bengali 等低资源语言在社交媒体上的仇恨言论进行研究,开发了一个定量数据集并建立了基线模型和一些额外的方法以更好地进行分类。在分析误分类之后,我们确认 XLM-Roberta 在单独训练 actual 或 rominized 数据集时表现最好。而在联合训练和小样本训练中,MuRIL 通过更好地解析语义表达比其他模型表现更优秀。
Oct, 2022