跨语言嵌入的多语言攻击性语言识别

EMNLPOct, 2020

跨语言嵌入的多语言攻击性语言识别

Multilingual Offensive Language Identification with Cross-lingual Embeddings

Tharindu Ranasinghe, Marcos Zampieri

TL;DR本文探讨了如何利用跨语境上下文词向量和迁移学习在使用资源较少的本地化语言中进行社交媒体中的冒犯内容检测，结果表明这个方法在孟加拉语、印地语和西班牙语等多种语言中的检测效率较高。

Abstract

offensive content is pervasive in social media and a reason for concern to companies and government organizations. Several studies have been recently published investigating methods to detect the various forms of

offensive content social media hate speech cyberbullying cross-lingual contextual embeddings

发现论文，激发创造

低资源语言的多语种攻击性语言识别

通过跨语境词嵌入和迁移学习，将预测扩展到低资源语言中，为即将面临的恶意内容提供了解决方案。

May, 2021

跨语言归纳迁移学习用于检测攻击性语言

本文采用跨语言归纳方法基于上下文的词嵌入模型 XLM-RoBERTa 检测跨语言社交媒体中的冒犯性语言，实验结果表明我们的模型在五种语言中表现竞争力，并在零 - shot 学习环境下显示出可扩展性。

Jul, 2020

使用修改的交叉熵损失进行多语言仇恨言论和攻击性内容检测

研究使用大型语言模型 Fine-tune，通过自动化方法识别社交媒体中的仇恨言论和有害内容，团队达到了 2021 年 HASOC 竞赛中英语和印地语任务的最佳结果。

Feb, 2022

使用 Transformers 从多语代码混合文本中检测攻击性言论

本论文提出了一种多语言自动化系统，使用机器学习和转换器来从混合语言的数据中识别带有冒犯性的文本，并在 Tamil、Malayalam 和 Kannada 三种语言的数据集上进行了测试。结果表明，该系统在不同语言上表现出不同的最佳表现方法，得分最高的是 m-BERT（Kannada）和 XLM-R（Tamil 和 Malayalam），系统性能达到了一定的水平。

Feb, 2021

跨语言迁移技术提升攻击性语言检测：SemEval-2020 第 12 项任务中的 NLPDove

本文介绍了我们在多语言环境下识别冒犯性语言的方法，使用数据增强策略，包括使用具有不同阈值的附加半监督标签和跨语言转移与数据选择，并提出了一个新的度量标准 Translation Embedding Distance，用于跨语言数据选择。我们还提出了各种预处理步骤和微调方法，定制社交媒体文本的预训练多语言 BERT（mBERT）来进行冒犯性语言识别，我们的多语言系统在 OffensEval 2020 上取得了有竞争力的结果。

Aug, 2020

印度 - 雅利安语言中的仇恨言论和冒犯内容检测：基于 LSTM 和 Transformers 的对抗

该研究在五种不同语言中展开了对仇恨言论的广泛比较分析，使用多种预训练模型评估其在这些语言中识别仇恨言论的性能，并为多语言环境下构建强大的仇恨言论检测系统提供了有益的见解。

Dec, 2023

识别转写和混合编码的孟加拉语冒犯性语言

在这篇研究中，我们探讨了社交媒体上的冒犯性内容识别问题，特别关注多语社会中常见的音译和混合语言现象对自然语言处理系统的挑战。我们引入了一份包含 5000 条手动注释评论的音译孟加拉冒犯性语言数据集（TB-OLID），并在该数据集上对机器学习模型进行训练、微调和评估。结果显示，fBERT 和 HateBERT 等基于英语预训练的 Transformer 模型在该数据集上表现最佳。

Nov, 2023

利用预训练的句子变换器在印度语言中进行冒犯性语言检测

我们的研究探讨了恶意言论检测领域，特别关注孟加拉语、阿萨姆语和古吉拉特语这三种资源匮乏的印度语言。我们通过 HASOC 2023 数据集对预训练的 BERT 和 SBERT 模型进行微调，评估它们在恶意言论识别中的有效性。研究发现，单语句 BERT 模型表现出卓越的优势，特别是在孟加拉语方面表现最佳。然而，阿萨姆语和古吉拉特语的性能仍有改进的机会。我们的目标是通过打击恶意言论的泛滥来促进包容性的在线空间。

Oct, 2023

跨语言攻击性语言检测：来自社交媒体的孟加拉语、阿萨姆语和博多语对话仇恨内容的基于 BERT 的分析

本文研究了在社交媒体领域中波斯尼亚语、塔吉克语、哈萨克语和蒙古语的仇恨言论检测的详细结果和关键发现。通过使用 BERT 模型，特别是 XML-Roberta-lagre，在大多数情况下，我们的成果表明其性能优于单语模型。我们的团队在任务 4 - 塔吉克语中获得第 3 名，在波斯尼亚语中获得第 5 名。

Dec, 2023

使用 Fine Tuned 多语言嵌入在印地语帖子中进行粗粒度和细粒度的敌意检测

研究采用基于 mBERT 的神经网络技术，对资源受限的印地语社交媒体上的言论进行多标签分类，结果表明该模型的绩效超过了现有的基准模型，成为了印地语言领域检测敌意的最佳模型。

Jan, 2021