跨语言冒犯性语言检测：数据集、迁移方法和挑战的系统综述

Jan, 2024

跨语言冒犯性语言检测：数据集、迁移方法和挑战的系统综述

Cross-lingual Offensive Language Detection: A Systematic Review of Datasets, Transfer Approaches and Challenges

Aiqi Jiang, Arkaitz Zubiaga

TL;DR社交媒体中冒犯性语言的快速增长和快速演变加大了检测的复杂性，尤其突显了在不同语言中识别此类内容的挑战。该调查针对社交媒体中的冒犯性语言检测在跨语言场景中进行了系统全面的交叉语言转移学习（CLTL）技术探索。我们的研究作为首个综合概述，专注于该领域的跨语言情景。我们分析了 67 篇相关论文，并按多个维度对这些研究进行了分类，包括所使用的多语言数据集的特征，使用的跨语言资源以及具体实施的 CLTL 策略。根据 “要转移什么”，我们还总结了三种主要的 CLTL 转移方法：实例、特征和参数转移。此外，我们还对当前挑战和未来的研究机会进行了探讨。此外，我们还在线提供了调查资源，包括两个全面的表格，其中提供了审查文献中使用的多语言数据集和 CLTL 方法的可访问参考。

Abstract

The growing prevalence and rapid evolution of offensive language in social media amplify the complexities of detection, particularly highlighting the challenges in identifying such content across diverse languages. This survey presents a systematic and comprehensive exploration of Cross-Lingual Transfer Learning (CLTL) techniques in →

offensive language detection social media cross-lingual transfer learning multilingual datasets cltl strategies

发现论文，激发创造

跨文化转移学习用于汉语攻击性言语检测

本研究旨在研究利用来自不同文化背景（尤其是韩国和英国）的数据进行传递学习对汉语攻击性语言检测的影响，并发现考虑文化特定的偏见会对语言模型的可传递性产生负面影响，而在多元文化的数据上训练的语言模型对汉语攻击性语言检测的不同特征敏感。研究表明，在有限的资源下，少样本学习情况下进行非英语攻击性语言检测有着良好的前景，并突显了跨文化传递学习在改善攻击性语言检测和促进包容性数字空间方面的重要性。

Mar, 2023

跨语言迁移技术提升攻击性语言检测：SemEval-2020 第 12 项任务中的 NLPDove

本文介绍了我们在多语言环境下识别冒犯性语言的方法，使用数据增强策略，包括使用具有不同阈值的附加半监督标签和跨语言转移与数据选择，并提出了一个新的度量标准 Translation Embedding Distance，用于跨语言数据选择。我们还提出了各种预处理步骤和微调方法，定制社交媒体文本的预训练多语言 BERT（mBERT）来进行冒犯性语言识别，我们的多语言系统在 OffensEval 2020 上取得了有竞争力的结果。

Aug, 2020

跨语言归纳迁移学习用于检测攻击性语言

本文采用跨语言归纳方法基于上下文的词嵌入模型 XLM-RoBERTa 检测跨语言社交媒体中的冒犯性语言，实验结果表明我们的模型在五种语言中表现竞争力，并在零 - shot 学习环境下显示出可扩展性。

Jul, 2020

文化指南：利用文化特征预测冒犯性语言检测中的迁移学习成功

研究探讨了语言技术中文化多样性的重要性，特别是对于涉及文化细微差别的主观任务（如冒犯性语言检测）而言，需要转向考虑文化特征对跨文化迁移学习的影响以提高任务的成功率。研究结果表明，文化价值调查在冒犯性语言检测任务的跨文化迁移学习中具有预测能力，并且可以通过冒犯性词语距离进一步提高成功率。因此，研究提倡在数据集中整合文化信息，并建议利用富含文化信息的数据源增强文化适应性。本研究对于更具包容性和文化敏感的语言技术迈出了一步。

Oct, 2023

多源跨语言模型迁移：学习共享的内容

利用生成对抗网络和无监督多语言嵌入，结合多源语言训练数据的多语言转移学习方法，在多语言文本分类和序列标记任务中实现 target 语言的显著性能提升。

Oct, 2018

低资源语言的多语种攻击性语言识别

通过跨语境词嵌入和迁移学习，将预测扩展到低资源语言中，为即将面临的恶意内容提供了解决方案。

May, 2021

跨语言嵌入的多语言攻击性语言识别

本文探讨了如何利用跨语境上下文词向量和迁移学习在使用资源较少的本地化语言中进行社交媒体中的冒犯内容检测，结果表明这个方法在孟加拉语、印地语和西班牙语等多种语言中的检测效率较高。

Oct, 2020

零样本跨语言辱骂语言检测的转换语言选择

通过研究语言相似度对自动恶意语言检测的转移学习进行语言选择，为低资源语言构建更好的检测系统，实现零 - shot 检测。通过量化语言结构的世界地图，发现语言相似度与分类器性能之间存在相关性，进而选择最佳转移语言。

Jun, 2022

使用 Transformers 从多语代码混合文本中检测攻击性言论

本论文提出了一种多语言自动化系统，使用机器学习和转换器来从混合语言的数据中识别带有冒犯性的文本，并在 Tamil、Malayalam 和 Kannada 三种语言的数据集上进行了测试。结果表明，该系统在不同语言上表现出不同的最佳表现方法，得分最高的是 m-BERT（Kannada）和 XLM-R（Tamil 和 Malayalam），系统性能达到了一定的水平。

Feb, 2021

识别转写和混合编码的孟加拉语冒犯性语言

在这篇研究中，我们探讨了社交媒体上的冒犯性内容识别问题，特别关注多语社会中常见的音译和混合语言现象对自然语言处理系统的挑战。我们引入了一份包含 5000 条手动注释评论的音译孟加拉冒犯性语言数据集（TB-OLID），并在该数据集上对机器学习模型进行训练、微调和评估。结果显示，fBERT 和 HateBERT 等基于英语预训练的 Transformer 模型在该数据集上表现最佳。

Nov, 2023