检测孟加拉语种族主义文本:一种集成深度学习框架
本文旨在探讨利用机器学习和自然语言处理技术,通过分析包含图像和文本的 Bengali 跨媒体互动,检测恶意言论。我们准备了一个新颖的数据集,并使用双向长短时记忆网络、卷积神经网络、ResNet-152、DenseNet-161、monolingual Bangla BERT、multilingual BERT-cased/uncased 和 XLM-RoBERTa 等多种模型进行了实验,其中 XLM-RoBERTa+DenseNet-161 模型的 F1 得分最高为 0.83。
Apr, 2022
通过使用编码器和解码器技术(encoder decoder),作者们提出了一种基于机器学习的模型来检测社交媒体中孟加拉语言使用者的仇恨言论。该模型使用了 1D 卷积层来提取和编码本地特征,并使用了注意机制、LSTM 和 GRU 解码器来预测仇恨言论的类别。经过评估,最佳的预测精度达到了 77%。
Mar, 2022
本文针对社交媒体上孟加拉语仇恨言论检测的挑战,通过众包标注和专家验证构建了一个包含 30,000 条用户评论的数据集,并利用多个深度学习模型对其进行了实验。结果表明将 SVM 用于该数据集能够获得 87.5% 的准确率,该数据集将推动孟加拉语仇恨言论检测领域的未来研究机会。
Dec, 2020
本文提出了一个基于深度学习的流程,用于分类孟加拉语的有害评论,首先使用二元分类模型确定评论是否有害,然后使用多标签分类器确定评论属于哪种毒性类型,使用 LSTM 和 BERT 嵌入达到了 89.42% 的准确性,并使用卷积神经网络和双向 LSTM(CNN-BiLSTM)实现了 78.92% 的准确率和 0.86 的加权 F1 分数。
Apr, 2023
该论文提出了一种在社交媒体上识别仇恨内容的检测方案,并使用带有用户相关信息的各种特征以及来自文本内容的词频向量输入到一组循环神经网络分类器中,经实验证明该方法的有效性不仅可以成功区分仇恨言论和正常文本,而且分类的准确性也高于现有的最先进算法。
Jan, 2018
本研究针对 Bengali 等低资源语言在社交媒体上的仇恨言论进行研究,开发了一个定量数据集并建立了基线模型和一些额外的方法以更好地进行分类。在分析误分类之后,我们确认 XLM-Roberta 在单独训练 actual 或 rominized 数据集时表现最好。而在联合训练和小样本训练中,MuRIL 通过更好地解析语义表达比其他模型表现更优秀。
Oct, 2022
本文探讨了训练神经网络进行印地语和孟加拉语仇恨言论识别的方法,以及如何应用迁移学习来学习这些类似的语言。该实验的结果与其他更昂贵的模型相比具有可比性。此外,由于使用的训练数据相对较少,且这两种语言对我们来说几乎是完全未知的,因此该研究可推广为一个解密人类无法理解的失落或陌生语言的努力。
Jan, 2022
该论文提出了一种名为 DeepHateExplainer 的方法,利用神经集成(即单语言孟加拉 BERT-base、多语言 BERT-cased/uncased 和 XLM-RoBERTa)从计算资源匮乏的孟加拉语中分类政治、个人、地缘政治和宗教仇恨,通过敏感度分析和层内关联传播技术(LRP)鉴别出最重要和最不重要的术语,评估得分表明,该方法对底层的机器学习和神经网络模型均有较好的表现
Dec, 2020
使用深度学习策略,本研究构建了一个双层双向长短时记忆(Bi-LSTM)模型,通过多种优化器和 5 折交叉验证来鉴别孟加拉语中的网络欺凌,结果显示所提出的模型在动量加速随机梯度下降(SGD)优化器下的准确率为 94.46%,在 Adam 优化器下的准确率为 95.08%,F1 分数为 95.23%,并在 5 折交叉验证中具有 94.31% 的准确率。
Jan, 2024
本研究使用监督学习和深度学习算法,专注于在社交媒体中检测粗俗言论;逻辑回归方法表现出有希望的准确性(0.91),而简单的循环神经网络结合 Word2vec 和 fastText 的准确性较低(0.84-0.90),突显神经网络算法需要更多数据的问题。
Aug, 2023