孟加拉语仇恨言论检测：数据集及其基准评估

Dec, 2020

孟加拉语仇恨言论检测：数据集及其基准评估

Hate Speech detection in the Bengali language: A dataset and its baseline evaluation

Nauros Romim, Mosahed Ahmed, Hriteshwar Talukder, Md Saiful Islam

TL;DR本文针对社交媒体上孟加拉语仇恨言论检测的挑战，通过众包标注和专家验证构建了一个包含 30,000 条用户评论的数据集，并利用多个深度学习模型对其进行了实验。结果表明将 SVM 用于该数据集能够获得 87.5% 的准确率，该数据集将推动孟加拉语仇恨言论检测领域的未来研究机会。

Abstract

social media sites such as YouTube and Facebook have become an integral part of everyone's life and in the last few years, hate speech in the social media comment section has increased rapidly. Detection of hate

social media hate speech detection bengali dataset deep learning

发现论文，激发创造

利用注意力机制循环神经网络在社交媒体上检测孟加拉仇恨言论

通过使用编码器和解码器技术（encoder decoder），作者们提出了一种基于机器学习的模型来检测社交媒体中孟加拉语言使用者的仇恨言论。该模型使用了 1D 卷积层来提取和编码本地特征，并使用了注意机制、LSTM 和 GRU 解码器来预测仇恨言论的类别。经过评估，最佳的预测精度达到了 77%。

Mar, 2022

BD-SHS：不同社交情境中检测孟加拉在线仇恨言论的基准数据集

该研究论文介绍了一个新的 Bangla HS 数据集 BD-SHS，包含了不同社交环境下的冒犯语言，通过使用具有代表性的语料库训练不同的扩展分类算法，提高了识别准确率。

Jun, 2022

孟加拉语仇恨言论和冒犯性语言检测

本研究针对 Bengali 等低资源语言在社交媒体上的仇恨言论进行研究，开发了一个定量数据集并建立了基线模型和一些额外的方法以更好地进行分类。在分析误分类之后，我们确认 XLM-Roberta 在单独训练 actual 或 rominized 数据集时表现最好。而在联合训练和小样本训练中，MuRIL 通过更好地解析语义表达比其他模型表现更优秀。

Oct, 2022

孟加拉模因和文本的多模态仇恨言论检测

本文旨在探讨利用机器学习和自然语言处理技术，通过分析包含图像和文本的 Bengali 跨媒体互动，检测恶意言论。我们准备了一个新颖的数据集，并使用双向长短时记忆网络、卷积神经网络、ResNet-152、DenseNet-161、monolingual Bangla BERT、multilingual BERT-cased/uncased 和 XLM-RoBERTa 等多种模型进行了实验，其中 XLM-RoBERTa+DenseNet-161 模型的 F1 得分最高为 0.83。

Apr, 2022

DeepHateExplainer: 可解释的低资源孟加拉语仇恨言论检测

该论文提出了一种名为 DeepHateExplainer 的方法，利用神经集成（即单语言孟加拉 BERT-base、多语言 BERT-cased/uncased 和 XLM-RoBERTa）从计算资源匮乏的孟加拉语中分类政治、个人、地缘政治和宗教仇恨，通过敏感度分析和层内关联传播技术（LRP）鉴别出最重要和最不重要的术语，评估得分表明，该方法对底层的机器学习和神经网络模型均有较好的表现

Dec, 2020

社交媒体中的强韧仇恨言论检测：跨数据集实证评估

针对在线仇恨言论的自动检测是 NLP 领域的一个研究热点。本文通过对不同的仇恨言论检测数据集进行微调，分析了数据集通用性的差异，并证明了数据集的组合能够促进强大的仇恨言论检测模型的发展。

Jul, 2023

使用神经网络探索印度语、孟加拉语仇恨言论检测和迁移学习的实验

本文探讨了训练神经网络进行印地语和孟加拉语仇恨言论识别的方法，以及如何应用迁移学习来学习这些类似的语言。该实验的结果与其他更昂贵的模型相比具有可比性。此外，由于使用的训练数据相对较少，且这两种语言对我们来说几乎是完全未知的，因此该研究可推广为一个解密人类无法理解的失落或陌生语言的努力。

Jan, 2022

揭示印度选举活动期间的政治仇恨言论：一个新的低资源数据集和基线

本文介绍了一个新数据集 IEHate，该数据集包含 11,457 个手动注释的印地语推文，主要研究议会选举中的仇恨言论检测问题，并使用多种机器学习、深度学习和变形器算法来检测和分析数据集，结果表明在低资源语言中进行恶意言论检测任重道远，需要更先进的技术，并强调了在恶意言论检测中同时应该使用人工和自动化方法。

Jun, 2023

HateCheckHIn：对印地语仇恨言论检测模型的评估

针对社交媒体中存在的多语言仇恨言论，本文提出了一种针对多语言仇恨言论模型的功能集，被用于对现有模型的诊断分析。通过以印地语为基础语言，构建了 HateCheckHIn 评估数据集，测试了最先进的基于 Transformer 的 m-BERT 模型以及 Perspective API。

Apr, 2022

利用受害者的仇恨进行越南社交媒体文本中的仇恨言论检测

社交媒体上激进内容的快速传播促使了对仇恨言论的检测任务的需求，本论文提供了一种构建用于针对性仇恨言论检测的系统的方法，并介绍了一个越南社交媒体文本的针对性仇恨言论检测数据集，并结合预训练语言模型与基于文本表征的 Bi-GRU-LSTM-CNN 模型建立了基线模型，最终提出了一种方法将该模型整合至在线流媒体系统，以在社交媒体上防止令人讨厌和冒犯性内容的实际应用。

Apr, 2024