Jan, 2024

跨语言冒犯性语言检测:数据集、迁移方法和挑战的系统综述

TL;DR社交媒体中冒犯性语言的快速增长和快速演变加大了检测的复杂性,尤其突显了在不同语言中识别此类内容的挑战。该调查针对社交媒体中的冒犯性语言检测在跨语言场景中进行了系统全面的交叉语言转移学习(CLTL)技术探索。我们的研究作为首个综合概述,专注于该领域的跨语言情景。我们分析了 67 篇相关论文,并按多个维度对这些研究进行了分类,包括所使用的多语言数据集的特征,使用的跨语言资源以及具体实施的 CLTL 策略。根据 “要转移什么”,我们还总结了三种主要的 CLTL 转移方法:实例、特征和参数转移。此外,我们还对当前挑战和未来的研究机会进行了探讨。此外,我们还在线提供了调查资源,包括两个全面的表格,其中提供了审查文献中使用的多语言数据集和 CLTL 方法的可访问参考。