预测马拉提语攻击性社交媒体帖子的类型和目标

Nov, 2022

预测马拉提语攻击性社交媒体帖子的类型和目标

Predicting the Type and Target of Offensive Social Media Posts in Marathi

Marcos Zampieri, Tharindu Ranasinghe, Mrinal Chaudhari, Saurabh Gaikwad, Prajwal Krishna...

TL;DR这篇研究针对印度的低资源印度－雅利安语言 Marathi 进行防御性语言识别研究，介绍了 Marathi Offensive Language Dataset v.2.0（MOLD 2.0）数据集，并通过多次实验对此数据集进行了分析。

Abstract

The presence of offensive language on social media is very common motivating platforms to invest in strategies to make communities safer. This includes developing robust →

offensive language social media machine learning marathi language dataset

发现论文，激发创造

基于 Twitter BERT 的 Marathi 语攻击性语言检测方法

本文介绍了我们在印度低资源口语马拉地语中的 Offensive Language Identification 的工作，讨论了使用 BERT 模型进行文本分类任务以识别推文是否冒犯，比较了不同 BERT 模型在 HASOC 2022 测试集上的表现，包括从其他现有 Marathi 仇恨言论语料库 HASOC 2021 和 L3Cube-MahaHate 进行的扩充等，并且当将 MahaTweetBERT 模型在结合数据集（HASOC 2021 + HASOC 2022 + MahaHate）上进行微调时，其在 HASOC 2022 测试集上取得了 98.43 的 F1 得分，这也是 HASOC 2022 / MOLD v2 测试集的新最优表现。

Dec, 2022

低资源语言的多语种攻击性语言识别

通过跨语境词嵌入和迁移学习，将预测扩展到低资源语言中，为即将面临的恶意内容提供了解决方案。

May, 2021

社交媒体中攻击性帖子的类型和目标预测

本文旨在针对多种不同类型的社交媒体攻击信息进行分类，构建了一个针对这个任务的分层模型，并提供了一个细粒度三层注释方案的 Offensive Language Identification Dataset (OLID) 数据集。最后，我们通过实验证明了不同机器学习模型的性能差异。

Feb, 2019

使用 Transformers 从多语代码混合文本中检测攻击性言论

本论文提出了一种多语言自动化系统，使用机器学习和转换器来从混合语言的数据中识别带有冒犯性的文本，并在 Tamil、Malayalam 和 Kannada 三种语言的数据集上进行了测试。结果表明，该系统在不同语言上表现出不同的最佳表现方法，得分最高的是 m-BERT（Kannada）和 XLM-R（Tamil 和 Malayalam），系统性能达到了一定的水平。

Feb, 2021

跨语言归纳迁移学习用于检测攻击性语言

本文采用跨语言归纳方法基于上下文的词嵌入模型 XLM-RoBERTa 检测跨语言社交媒体中的冒犯性语言，实验结果表明我们的模型在五种语言中表现竞争力，并在零 - shot 学习环境下显示出可扩展性。

Jul, 2020

IIITDWD-ShankarB@ Dravidian-CodeMixi-HASOC2021: 基于 mBERT 的南印度语言冒犯内容识别模型

本研究采用多语言 BERT 提取特征，并在其上使用三个不同的分类器以识别社交媒体上的辱骂内容，最终在 Malayalam 数据上获得 0.70 的加权 F1 分数并排名第五，在 Tamil 数据上获得 0.573 的加权 F1 分数并排名第十一。

Apr, 2022

利用预训练的句子变换器在印度语言中进行冒犯性语言检测

我们的研究探讨了恶意言论检测领域，特别关注孟加拉语、阿萨姆语和古吉拉特语这三种资源匮乏的印度语言。我们通过 HASOC 2023 数据集对预训练的 BERT 和 SBERT 模型进行微调，评估它们在恶意言论识别中的有效性。研究发现，单语句 BERT 模型表现出卓越的优势，特别是在孟加拉语方面表现最佳。然而，阿萨姆语和古吉拉特语的性能仍有改进的机会。我们的目标是通过打击恶意言论的泛滥来促进包容性的在线空间。

Oct, 2023

跨语言嵌入的多语言攻击性语言识别

本文探讨了如何利用跨语境上下文词向量和迁移学习在使用资源较少的本地化语言中进行社交媒体中的冒犯内容检测，结果表明这个方法在孟加拉语、印地语和西班牙语等多种语言中的检测效率较高。

Oct, 2020

SOLD：僧伽罗语攻击性语言数据集

本研究针对斯里兰卡使用人数超过 1700 万的 Sinhala 语，开发了一个手工注释的数据集 SOLD，和一个更大的半监督数据集 SemiSOLD，用以改进机器学习模型鉴别 Sinhala 语的具有攻击性的语言的能力。

Dec, 2022

孟加拉语仇恨言论和冒犯性语言检测

本研究针对 Bengali 等低资源语言在社交媒体上的仇恨言论进行研究，开发了一个定量数据集并建立了基线模型和一些额外的方法以更好地进行分类。在分析误分类之后，我们确认 XLM-Roberta 在单独训练 actual 或 rominized 数据集时表现最好。而在联合训练和小样本训练中，MuRIL 通过更好地解析语义表达比其他模型表现更优秀。

Oct, 2022