孟加拉语仇恨言论和冒犯性语言检测
本文研究了在社交媒体领域中波斯尼亚语、塔吉克语、哈萨克语和蒙古语的仇恨言论检测的详细结果和关键发现。通过使用 BERT 模型,特别是 XML-Roberta-lagre,在大多数情况下,我们的成果表明其性能优于单语模型。我们的团队在任务 4 - 塔吉克语中获得第 3 名,在波斯尼亚语中获得第 5 名。
Dec, 2023
通过使用编码器和解码器技术(encoder decoder),作者们提出了一种基于机器学习的模型来检测社交媒体中孟加拉语言使用者的仇恨言论。该模型使用了 1D 卷积层来提取和编码本地特征,并使用了注意机制、LSTM 和 GRU 解码器来预测仇恨言论的类别。经过评估,最佳的预测精度达到了 77%。
Mar, 2022
本文针对社交媒体上孟加拉语仇恨言论检测的挑战,通过众包标注和专家验证构建了一个包含 30,000 条用户评论的数据集,并利用多个深度学习模型对其进行了实验。结果表明将 SVM 用于该数据集能够获得 87.5% 的准确率,该数据集将推动孟加拉语仇恨言论检测领域的未来研究机会。
Dec, 2020
我们的研究探讨了恶意言论检测领域,特别关注孟加拉语、阿萨姆语和古吉拉特语这三种资源匮乏的印度语言。我们通过 HASOC 2023 数据集对预训练的 BERT 和 SBERT 模型进行微调,评估它们在恶意言论识别中的有效性。研究发现,单语句 BERT 模型表现出卓越的优势,特别是在孟加拉语方面表现最佳。然而,阿萨姆语和古吉拉特语的性能仍有改进的机会。我们的目标是通过打击恶意言论的泛滥来促进包容性的在线空间。
Oct, 2023
该研究在五种不同语言中展开了对仇恨言论的广泛比较分析,使用多种预训练模型评估其在这些语言中识别仇恨言论的性能,并为多语言环境下构建强大的仇恨言论检测系统提供了有益的见解。
Dec, 2023
该论文提出了一种名为 DeepHateExplainer 的方法,利用神经集成(即单语言孟加拉 BERT-base、多语言 BERT-cased/uncased 和 XLM-RoBERTa)从计算资源匮乏的孟加拉语中分类政治、个人、地缘政治和宗教仇恨,通过敏感度分析和层内关联传播技术(LRP)鉴别出最重要和最不重要的术语,评估得分表明,该方法对底层的机器学习和神经网络模型均有较好的表现
Dec, 2020
本文旨在探讨利用机器学习和自然语言处理技术,通过分析包含图像和文本的 Bengali 跨媒体互动,检测恶意言论。我们准备了一个新颖的数据集,并使用双向长短时记忆网络、卷积神经网络、ResNet-152、DenseNet-161、monolingual Bangla BERT、multilingual BERT-cased/uncased 和 XLM-RoBERTa 等多种模型进行了实验,其中 XLM-RoBERTa+DenseNet-161 模型的 F1 得分最高为 0.83。
Apr, 2022
在这篇研究中,我们探讨了社交媒体上的冒犯性内容识别问题,特别关注多语社会中常见的音译和混合语言现象对自然语言处理系统的挑战。我们引入了一份包含 5000 条手动注释评论的音译孟加拉冒犯性语言数据集(TB-OLID),并在该数据集上对机器学习模型进行训练、微调和评估。结果显示,fBERT 和 HateBERT 等基于英语预训练的 Transformer 模型在该数据集上表现最佳。
Nov, 2023
本文探讨了训练神经网络进行印地语和孟加拉语仇恨言论识别的方法,以及如何应用迁移学习来学习这些类似的语言。该实验的结果与其他更昂贵的模型相比具有可比性。此外,由于使用的训练数据相对较少,且这两种语言对我们来说几乎是完全未知的,因此该研究可推广为一个解密人类无法理解的失落或陌生语言的努力。
Jan, 2022