基于Transformer的社交媒体多语言攻击性语言识别:SemEval-2020第12项任务的BRUMS
本文介绍了SemEval-2019任务6(OffensEval)的结果和主要发现,该任务基于一个包含超过14,000个英文推文的新数据集——Offensive Language Identification Dataset(OLID),它有三个子任务,目标是在社交媒体上识别和分类攻击性语言。
Mar, 2019
总结 SemEval-2020 中的 OffensEval 任务,它涉及多语言社交媒体中的多语种冒犯性语言识别,并说明了其在 OffensEval 2019 中的分层分类结构。
Jun, 2020
本文采用跨语言归纳方法基于上下文的词嵌入模型XLM-RoBERTa检测跨语言社交媒体中的冒犯性语言,实验结果表明我们的模型在五种语言中表现竞争力,并在零-shot学习环境下显示出可扩展性。
Jul, 2020
本文介绍了Duluth系统参加了SemEval-2020任务12:社交媒体中的多语种攻击性语言识别(OffensEval-2020),利用逻辑回归提供了一个简单的机器学习基线,并使用任务组织者提供的远程监督训练数据进行了模型训练。然而,最终在比较评估中的排名并不高,我们进行了定性分析并发现金标准数据中的类别标签有一定的噪声,这样的高排名可能反映的是训练数据上过拟合而并不能很好地预测英语中攻击性语言的特点。
Jul, 2020
本文介绍了使用预训练BERT模型与卷积神经网络,处理OffensEval 2020任务A(多语言攻击性语言识别)子任务的方法,并表明结合CNN和BERT比仅使用BERT更好,强调了利用预训练语言模型进行下游任务的重要性。我们排名第四,在阿拉伯语平均宏F1得分为0.897,在希腊语得分为0.843,在土耳其语得分为0.814。另外,我们介绍了ArabicBERT,一组针对阿拉伯语的预训练transformer语言模型,并与社区分享。
Jul, 2020
本文介绍了我们在多语言环境下识别冒犯性语言的方法,使用数据增强策略,包括使用具有不同阈值的附加半监督标签和跨语言转移与数据选择,并提出了一个新的度量标准Translation Embedding Distance,用于跨语言数据选择。我们还提出了各种预处理步骤和微调方法,定制社交媒体文本的预训练多语言BERT(mBERT)来进行冒犯性语言识别,我们的多语言系统在OffensEval 2020上取得了有竞争力的结果。
Aug, 2020
在这篇研究中,我们探讨了社交媒体上的冒犯性内容识别问题,特别关注多语社会中常见的音译和混合语言现象对自然语言处理系统的挑战。我们引入了一份包含5000条手动注释评论的音译孟加拉冒犯性语言数据集(TB-OLID),并在该数据集上对机器学习模型进行训练、微调和评估。结果显示,fBERT和HateBERT等基于英语预训练的Transformer模型在该数据集上表现最佳。
Nov, 2023
社交媒体上冒犯内容的普遍存在是公司和政府组织越来越关注的问题。本研究提出了第一个具有编码器-解码器结构的预训练模型,用于冒犯语言识别,并在两个大型冒犯语言识别数据集(SOLID和CCTK)上训练。研究结果表明,预训练的T5模型在多个英文基准测试中优于其他基于变压器的模型,在多语言场景中,多语言预训练模型在所有上述数据集上实现了新的最优表现。
Dec, 2023
社交媒体中冒犯性语言的快速增长和快速演变加大了检测的复杂性,尤其突显了在不同语言中识别此类内容的挑战。该调查针对社交媒体中的冒犯性语言检测在跨语言场景中进行了系统全面的交叉语言转移学习(CLTL)技术探索。我们的研究作为首个综合概述,专注于该领域的跨语言情景。我们分析了67篇相关论文,并按多个维度对这些研究进行了分类,包括所使用的多语言数据集的特征,使用的跨语言资源以及具体实施的CLTL策略。根据“要转移什么”,我们还总结了三种主要的CLTL转移方法:实例、特征和参数转移。此外,我们还对当前挑战和未来的研究机会进行了探讨。此外,我们还在线提供了调查资源,包括两个全面的表格,其中提供了审查文献中使用的多语言数据集和CLTL方法的可访问参考。
Jan, 2024