IIITDWD-ShankarB@ Dravidian-CodeMixi-HASOC2021: 基于 mBERT 的南印度语言冒犯内容识别模型

Apr, 2022

IIITDWD-ShankarB@ Dravidian-CodeMixi-HASOC2021: 基于 mBERT 的南印度语言冒犯内容识别模型

IIITDWD-ShankarB@ Dravidian-CodeMixi-HASOC2021: mBERT based model for identification of offensive content in south Indian languages

PDF

Shankar Biradar, Sunil Saumya

TL;DR本研究采用多语言 BERT 提取特征，并在其上使用三个不同的分类器以识别社交媒体上的辱骂内容，最终在 Malayalam 数据上获得 0.70 的加权 F1 分数并排名第五，在 Tamil 数据上获得 0.573 的加权 F1 分数并排名第十一。

Abstract

In recent years, there has been a lot of focus on offensive content. The amount of offensive content generated by social media is increasi

offensive content social media dravidian-code mixed hasoc-2020 multilingual bert classifiers

发现论文，激发创造

IIITG-ADBU@HASOC-Dravidian-CodeMix-FIRE2020: 混合码语德拉维达语文本中的攻击性内容检测

本文基于 SVM 分类器和 XLM-RoBERTa 分类器，在 Dravidian-CodeMix-HASOC 2020 的比赛数据集中，对代码混编的马拉雅拉姆语和泰米尔语文本进行分类，并取得了较好的效果。

Jul, 2021

使用 Transformers 从多语代码混合文本中检测攻击性言论

本论文提出了一种多语言自动化系统，使用机器学习和转换器来从混合语言的数据中识别带有冒犯性的文本，并在 Tamil、Malayalam 和 Kannada 三种语言的数据集上进行了测试。结果表明，该系统在不同语言上表现出不同的最佳表现方法，得分最高的是 m-BERT（Kannada）和 XLM-R（Tamil 和 Malayalam），系统性能达到了一定的水平。

Feb, 2021

基于 Twitter BERT 的 Marathi 语攻击性语言检测方法

本文介绍了我们在印度低资源口语马拉地语中的 Offensive Language Identification 的工作，讨论了使用 BERT 模型进行文本分类任务以识别推文是否冒犯，比较了不同 BERT 模型在 HASOC 2022 测试集上的表现，包括从其他现有 Marathi 仇恨言论语料库 HASOC 2021 和 L3Cube-MahaHate 进行的扩充等，并且当将 MahaTweetBERT 模型在结合数据集（HASOC 2021 + HASOC 2022 + MahaHate）上进行微调时，其在 HASOC 2022 测试集上取得了 98.43 的 F1 得分，这也是 HASOC 2022 / MOLD v2 测试集的新最优表现。

Dec, 2022

基于 Transformer 的攻击性语言检测的集成策略

本研究基于 EACL 2021 的一个共享任务，针对低资源语言如泰米尔语的情况，提出了一种差异化的多元化变压器模型探索以及多个模型集成技术，并通过 Tamil，Kannada 和 Malayalam 三种语言的争夺任务，获得了第一或第二的优异成绩。

Feb, 2021

跨语言攻击性语言检测：来自社交媒体的孟加拉语、阿萨姆语和博多语对话仇恨内容的基于 BERT 的分析

本文研究了在社交媒体领域中波斯尼亚语、塔吉克语、哈萨克语和蒙古语的仇恨言论检测的详细结果和关键发现。通过使用 BERT 模型，特别是 XML-Roberta-lagre，在大多数情况下，我们的成果表明其性能优于单语模型。我们的团队在任务 4 - 塔吉克语中获得第 3 名，在波斯尼亚语中获得第 5 名。

Dec, 2023

识别转写和混合编码的孟加拉语冒犯性语言

在这篇研究中，我们探讨了社交媒体上的冒犯性内容识别问题，特别关注多语社会中常见的音译和混合语言现象对自然语言处理系统的挑战。我们引入了一份包含 5000 条手动注释评论的音译孟加拉冒犯性语言数据集（TB-OLID），并在该数据集上对机器学习模型进行训练、微调和评估。结果显示，fBERT 和 HateBERT 等基于英语预训练的 Transformer 模型在该数据集上表现最佳。

Nov, 2023

利用预训练的句子变换器在印度语言中进行冒犯性语言检测

我们的研究探讨了恶意言论检测领域，特别关注孟加拉语、阿萨姆语和古吉拉特语这三种资源匮乏的印度语言。我们通过 HASOC 2023 数据集对预训练的 BERT 和 SBERT 模型进行微调，评估它们在恶意言论识别中的有效性。研究发现，单语句 BERT 模型表现出卓越的优势，特别是在孟加拉语方面表现最佳。然而，阿萨姆语和古吉拉特语的性能仍有改进的机会。我们的目标是通过打击恶意言论的泛滥来促进包容性的在线空间。

Oct, 2023

混合泰米尔语 - 英语评论攻击性跨度识别共享任务的发现

本研究提供了泰米尔语 - 英语混合社交评论中带有冒犯性内容的数据集，旨在解决社交媒体平台上对具有冒犯性内容进行分类的问题，缺乏冒犯性内容的注释数据是导致这种限制的根本原因，该研究提供了一些解决方案和结果。

May, 2022

Kungfupanda 于 SemEval-2020 12 任务：基于 BERT 的多任务学习用于冒犯性语言检测

本篇研究论文针对社交媒体中的攻击性内容建立一个结合多任务学习和以 BERT 为基础的模型的系统，利用预训练的 BERT 语言模型有效地学习社交媒体中包含噪音的文本的表示，同时利用其他相关任务的监督信号来提高攻击性语言检测的性能，在 OffensEval-2020 比赛中，我们的模型在英文子任务 A 中达到了 91.51％的 F1 得分，相当于第一名（92.23％F1），同时提供了经验分析来解释我们方法的有效性。

Apr, 2020

探索基于 Transformer 的模型以识别英语和印度雅利安语中的仇恨言论和攻击性内容

本篇论文探索了基于 Transformer 的多种机器学习模型，用于探测英语和印度 - 雅利安语中的仇恨言论和冒犯性内容，研究团队 “超级马里奥” 采用 mBERT、XLMR-large、XLMR-base 等多种模型，我们在 Code-Mixed 数据集排名第二（宏平均 F1：0.7107）、在印地语二分类中排名第二（宏平均 F1：0.7797）、在英语四分类中排名第四（宏平均 F1：0.8006），在英语二分类中排名第十二（宏平均 F1：0.6447）。

Nov, 2021