基于Transformer的社交媒体多语言攻击性语言识别：SemEval-2020第12项任务的BRUMS

Oct, 2020

基于Transformer的社交媒体多语言攻击性语言识别：SemEval-2020第12项任务的BRUMS

BRUMS at SemEval-2020 Task 12 : Transformer based Multilingual Offensive Language Identification in Social Media

Tharindu Ranasinghe, Hansi Hettiarachchi

TL;DR本文介绍了团队BRUMS在2020年SemEval OffensEval 2：社交媒体中多语言攻击性语言识别比赛中的参赛作品。作者提出了一种多语言深度学习模型，用于在社交媒体中标识攻击性语言，实现了跨语言的灵活性并取得了可接受的评估结果。

Abstract

In this paper, we describe the team \textit{BRUMS} entry to offenseval 2: multilingual offensive language Identification in →

发现论文，激发创造

SemEval-2019任务6：社交媒体中的攻击性语言识别和分类（OffensEval）

本文介绍了SemEval-2019任务6（OffensEval）的结果和主要发现，该任务基于一个包含超过14,000个英文推文的新数据集——Offensive Language Identification Dataset（OLID），它有三个子任务，目标是在社交媒体上识别和分类攻击性语言。

Mar, 2019

SemEval-2020任务12：社交媒体中的多语种攻击性语言识别（OffensEval 2020）

总结 SemEval-2020 中的 OffensEval 任务，它涉及多语言社交媒体中的多语种冒犯性语言识别，并说明了其在 OffensEval 2019 中的分层分类结构。

Jun, 2020

跨语言归纳迁移学习用于检测攻击性语言

本文采用跨语言归纳方法基于上下文的词嵌入模型XLM-RoBERTa检测跨语言社交媒体中的冒犯性语言，实验结果表明我们的模型在五种语言中表现竞争力，并在零-shot学习环境下显示出可扩展性。

Jul, 2020

Duluth在SemEval-2020任务12中：使用逻辑回归在英语中识别具有攻击性的推文

本文介绍了Duluth系统参加了SemEval-2020任务12：社交媒体中的多语种攻击性语言识别（OffensEval-2020），利用逻辑回归提供了一个简单的机器学习基线，并使用任务组织者提供的远程监督训练数据进行了模型训练。然而，最终在比较评估中的排名并不高，我们进行了定性分析并发现金标准数据中的类别标签有一定的噪声，这样的高排名可能反映的是训练数据上过拟合而并不能很好地预测英语中攻击性语言的特点。

Jul, 2020

KUISAIL在SemEval-2020任务12中：基于BERT-CNN在社交媒体中识别冒犯性言论

本文介绍了使用预训练BERT模型与卷积神经网络，处理OffensEval 2020任务A（多语言攻击性语言识别）子任务的方法，并表明结合CNN和BERT比仅使用BERT更好，强调了利用预训练语言模型进行下游任务的重要性。我们排名第四，在阿拉伯语平均宏F1得分为0.897，在希腊语得分为0.843，在土耳其语得分为0.814。另外，我们介绍了ArabicBERT，一组针对阿拉伯语的预训练transformer语言模型，并与社区分享。

Jul, 2020

跨语言迁移技术提升攻击性语言检测：SemEval-2020 第12项任务中的 NLPDove

本文介绍了我们在多语言环境下识别冒犯性语言的方法，使用数据增强策略，包括使用具有不同阈值的附加半监督标签和跨语言转移与数据选择，并提出了一个新的度量标准Translation Embedding Distance，用于跨语言数据选择。我们还提出了各种预处理步骤和微调方法，定制社交媒体文本的预训练多语言BERT（mBERT）来进行冒犯性语言识别，我们的多语言系统在OffensEval 2020上取得了有竞争力的结果。

Aug, 2020

低资源语言的多语种攻击性语言识别

通过跨语境词嵌入和迁移学习，将预测扩展到低资源语言中，为即将面临的恶意内容提供了解决方案。

May, 2021

识别转写和混合编码的孟加拉语冒犯性语言

在这篇研究中，我们探讨了社交媒体上的冒犯性内容识别问题，特别关注多语社会中常见的音译和混合语言现象对自然语言处理系统的挑战。我们引入了一份包含5000条手动注释评论的音译孟加拉冒犯性语言数据集（TB-OLID），并在该数据集上对机器学习模型进行训练、微调和评估。结果显示，fBERT和HateBERT等基于英语预训练的Transformer模型在该数据集上表现最佳。

Nov, 2023

多语言冒犯性语言识别的文本对文本模型

社交媒体上冒犯内容的普遍存在是公司和政府组织越来越关注的问题。本研究提出了第一个具有编码器-解码器结构的预训练模型，用于冒犯语言识别，并在两个大型冒犯语言识别数据集（SOLID和CCTK）上训练。研究结果表明，预训练的T5模型在多个英文基准测试中优于其他基于变压器的模型，在多语言场景中，多语言预训练模型在所有上述数据集上实现了新的最优表现。

Dec, 2023

跨语言冒犯性语言检测：数据集、迁移方法和挑战的系统综述

社交媒体中冒犯性语言的快速增长和快速演变加大了检测的复杂性，尤其突显了在不同语言中识别此类内容的挑战。该调查针对社交媒体中的冒犯性语言检测在跨语言场景中进行了系统全面的交叉语言转移学习（CLTL）技术探索。我们的研究作为首个综合概述，专注于该领域的跨语言情景。我们分析了67篇相关论文，并按多个维度对这些研究进行了分类，包括所使用的多语言数据集的特征，使用的跨语言资源以及具体实施的CLTL策略。根据“要转移什么”，我们还总结了三种主要的CLTL转移方法：实例、特征和参数转移。此外，我们还对当前挑战和未来的研究机会进行了探讨。此外，我们还在线提供了调查资源，包括两个全面的表格，其中提供了审查文献中使用的多语言数据集和CLTL方法的可访问参考。

Jan, 2024