评估深度学习模型对印地语文本的敌意检测能力
本篇文章提出了一种基于转移学习的方法,使用专注力预训练模型进行细分任务分类,将社交媒体文章分类为敌对与非敌对,并进一步分析其情感类型:仇恨、虚假、诽谤和冒犯。这种方法在印第语文本数据上进行 fine-tuned,并在 CONSTRAINT-2021 共享任务中表现出色。
Jan, 2021
研究采用基于 mBERT 的神经网络技术,对资源受限的印地语社交媒体上的言论进行多标签分类,结果表明该模型的绩效超过了现有的基准模型,成为了印地语言领域检测敌意的最佳模型。
Jan, 2021
本文提出了一个新颖的基于印地语的敌对性检测数据集,其中包括约 8200 个在线发布的文本,覆盖了虚假新闻、仇恨言论、攻击性和诽谤帖子等四个维度,并采用多标签标注方式,发布该数据集作为 CONSTRAINT-2021 敌对性帖子检测任务的一部分。
Nov, 2020
针对社交媒体中存在的多语言仇恨言论,本文提出了一种针对多语言仇恨言论模型的功能集,被用于对现有模型的诊断分析。通过以印地语为基础语言,构建了 HateCheckHIn 评估数据集,测试了最先进的基于 Transformer 的 m-BERT 模型以及 Perspective API。
Apr, 2022
该研究在五种不同语言中展开了对仇恨言论的广泛比较分析,使用多种预训练模型评估其在这些语言中识别仇恨言论的性能,并为多语言环境下构建强大的仇恨言论检测系统提供了有益的见解。
Dec, 2023
本文介绍了 AAAI-2021 CONSTRAINT 共享任务中开发的系统,包括在英语中检测 COVID19 虚假新闻和在印地语中检测敌对帖子。该研究使用 SVM,CNN,BiLSTM 和 CNN+BiLSTM 等技术进行分类任务,结果表明 SVM 在使用 tf-idf 特征方面在 task-A 测试集上实现了最高的 94.39%加权 $f_1$ 分数。标签功率集 SVM 使用 n-gram 特征在 task-B 测试集上获得了 86.03%的粗分类和 50.98%的细分类 $f_1$ 分数。
Jan, 2021
我们的研究探讨了恶意言论检测领域,特别关注孟加拉语、阿萨姆语和古吉拉特语这三种资源匮乏的印度语言。我们通过 HASOC 2023 数据集对预训练的 BERT 和 SBERT 模型进行微调,评估它们在恶意言论识别中的有效性。研究发现,单语句 BERT 模型表现出卓越的优势,特别是在孟加拉语方面表现最佳。然而,阿萨姆语和古吉拉特语的性能仍有改进的机会。我们的目标是通过打击恶意言论的泛滥来促进包容性的在线空间。
Oct, 2023
本文探讨了训练神经网络进行印地语和孟加拉语仇恨言论识别的方法,以及如何应用迁移学习来学习这些类似的语言。该实验的结果与其他更昂贵的模型相比具有可比性。此外,由于使用的训练数据相对较少,且这两种语言对我们来说几乎是完全未知的,因此该研究可推广为一个解密人类无法理解的失落或陌生语言的努力。
Jan, 2022
本文针对社交媒体上孟加拉语仇恨言论检测的挑战,通过众包标注和专家验证构建了一个包含 30,000 条用户评论的数据集,并利用多个深度学习模型对其进行了实验。结果表明将 SVM 用于该数据集能够获得 87.5% 的准确率,该数据集将推动孟加拉语仇恨言论检测领域的未来研究机会。
Dec, 2020
本文旨在探讨利用机器学习和自然语言处理技术,通过分析包含图像和文本的 Bengali 跨媒体互动,检测恶意言论。我们准备了一个新颖的数据集,并使用双向长短时记忆网络、卷积神经网络、ResNet-152、DenseNet-161、monolingual Bangla BERT、multilingual BERT-cased/uncased 和 XLM-RoBERTa 等多种模型进行了实验,其中 XLM-RoBERTa+DenseNet-161 模型的 F1 得分最高为 0.83。
Apr, 2022