Aug, 2023

低资源语言和方言的网络欺凌检测:现有技术综述

TL;DR社交媒体平台在及时进行内容审查上的困难助长了用户滥用这些平台传播低俗或侮辱性言论,而这种行为如果反复进行就会造成网络霸凌,这是一种在虚拟环境中发生的社会问题,但会导致现实世界中的严重后果,如抑郁、退缩,甚至受害者产生自杀倾向。目前已经开发了一些自动检测和减轻网络霸凌的系统,但不幸的是,其中绝大部分只适用于英文,只有极少数适用于资源匮乏的语言。为了评估当前的研究状况并确定进一步发展的需求,本文详细调研了在资源匮乏语言中进行自动网络霸凌检测的相关研究。我们分析了所有可获得的关于这一主题的研究,并调查了 2017 年至 2023 年 1 月间发表的超过 70 篇关于资源匮乏语言和方言中自动检测网络霸凌或相关语言的研究。本文涵盖了 23 种资源匮乏语言和方言,包括孟加拉语、印地语和德拉维达语等。在调研中,我们找出了以前研究中的一些空白,包括对网络霸凌及其相关子类别的可靠定义的缺乏,数据获取和标注中的偏见。基于对这些研究空白的认识,我们提出了改进网络霸凌检测的一些建议,重点关注资源匮乏语言。基于这些建议,我们收集并发布了一个基于 Chittagonian 方言的网络霸凌数据集,并提出了一些在这个数据集上进行训练的初始机器学习解决方案。此外,还尝试了基于预训练的 BanglaBERT 模型。