印地语敌对检测数据集

Nov, 2020

Hostility Detection Dataset in Hindi

Mohit Bhardwaj, Md Shad Akhtar, Asif Ekbal, Amitava Das, Tanmoy Chakraborty

TL;DR本文提出了一个新颖的基于印地语的敌对性检测数据集，其中包括约 8200 个在线发布的文本，覆盖了虚假新闻、仇恨言论、攻击性和诽谤帖子等四个维度，并采用多标签标注方式，发布该数据集作为 CONSTRAINT-2021 敌对性帖子检测任务的一部分。

Abstract

In this paper, we present a novel hostility detection dataset in Hindi language. We collect and manually annotate ~8200 online posts. The annotated →

hostility detection hindi language dataset shared task multi-label tags

发现论文，激发创造

利用预训练语言模型检测印地语中的敌意

本篇文章提出了一种基于转移学习的方法，使用专注力预训练模型进行细分任务分类，将社交媒体文章分类为敌对与非敌对，并进一步分析其情感类型：仇恨、虚假、诽谤和冒犯。这种方法在印第语文本数据上进行 fine-tuned，并在 CONSTRAINT-2021 共享任务中表现出色。

Jan, 2021

评估深度学习模型对印地语文本的敌意检测能力

本文中提出了一些方法来检测印度语中的恶意文本，使用 CNN、LSTM 和 BERT 等深度学习方法，并发现使用 BERT 的模型性能最佳。

Jan, 2021

使用 Fine Tuned 多语言嵌入在印地语帖子中进行粗粒度和细粒度的敌意检测

研究采用基于 mBERT 的神经网络技术，对资源受限的印地语社交媒体上的言论进行多标签分类，结果表明该模型的绩效超过了现有的基准模型，成为了印地语言领域检测敌意的最佳模型。

Jan, 2021

应对敌对行为：社交媒体中的 Covid-19 虚假新闻和敌对帖子检测

本文介绍了 AAAI-2021 CONSTRAINT 共享任务中开发的系统，包括在英语中检测 COVID19 虚假新闻和在印地语中检测敌对帖子。该研究使用 SVM，CNN，BiLSTM 和 CNN+BiLSTM 等技术进行分类任务，结果表明 SVM 在使用 tf-idf 特征方面在 task-A 测试集上实现了最高的 94.39％加权 $f_1$ 分数。标签功率集 SVM 使用 n-gram 特征在 task-B 测试集上获得了 86.03％的粗分类和 50.98％的细分类 $f_1$ 分数。

Jan, 2021

孟加拉语仇恨言论检测：数据集及其基准评估

本文针对社交媒体上孟加拉语仇恨言论检测的挑战，通过众包标注和专家验证构建了一个包含 30,000 条用户评论的数据集，并利用多个深度学习模型对其进行了实验。结果表明将 SVM 用于该数据集能够获得 87.5% 的准确率，该数据集将推动孟加拉语仇恨言论检测领域的未来研究机会。

Dec, 2020

揭示印度选举活动期间的政治仇恨言论：一个新的低资源数据集和基线

本文介绍了一个新数据集 IEHate，该数据集包含 11,457 个手动注释的印地语推文，主要研究议会选举中的仇恨言论检测问题，并使用多种机器学习、深度学习和变形器算法来检测和分析数据集，结果表明在低资源语言中进行恶意言论检测任重道远，需要更先进的技术，并强调了在恶意言论检测中同时应该使用人工和自动化方法。

Jun, 2023

网络有害言论的多维度识别视角：不只是仇恨

本文介绍了一种使用多个标签注释恶意在线言论的方法，强调了注释应该是细致、准确的。作者发布了一个高质量的数据集，使用六个标签注释了超过 40,000 条有关移民的推文，在此数据集上训练模型的表现优于基准数据集。

Oct, 2022

LAHM：用于多领域和多语言仇恨言论识别的大型注释数据集

本文介绍一种新的多语言仇恨言论分析数据集，涵盖了英语、印地语、阿拉伯语、法语、德语和西班牙语等六种语言，针对辱骂、种族主义、性别歧视、宗教仇视和极端主义等五大领域进行多角度分类，采用多任务学习方法对数据进行测试，以期提高仇恨言论检测和分类的准确性。

Apr, 2023

BD-SHS：不同社交情境中检测孟加拉在线仇恨言论的基准数据集

该研究论文介绍了一个新的 Bangla HS 数据集 BD-SHS，包含了不同社交环境下的冒犯语言，通过使用具有代表性的语料库训练不同的扩展分类算法，提高了识别准确率。

Jun, 2022

孟加拉语仇恨言论和冒犯性语言检测

本研究针对 Bengali 等低资源语言在社交媒体上的仇恨言论进行研究，开发了一个定量数据集并建立了基线模型和一些额外的方法以更好地进行分类。在分析误分类之后，我们确认 XLM-Roberta 在单独训练 actual 或 rominized 数据集时表现最好。而在联合训练和小样本训练中，MuRIL 通过更好地解析语义表达比其他模型表现更优秀。

Oct, 2022