跨语言嵌入的多语言攻击性语言识别
本文采用跨语言归纳方法基于上下文的词嵌入模型 XLM-RoBERTa 检测跨语言社交媒体中的冒犯性语言,实验结果表明我们的模型在五种语言中表现竞争力,并在零 - shot 学习环境下显示出可扩展性。
Jul, 2020
研究使用大型语言模型 Fine-tune,通过自动化方法识别社交媒体中的仇恨言论和有害内容,团队达到了 2021 年 HASOC 竞赛中英语和印地语任务的最佳结果。
Feb, 2022
本论文提出了一种多语言自动化系统,使用机器学习和转换器来从混合语言的数据中识别带有冒犯性的文本,并在 Tamil、Malayalam 和 Kannada 三种语言的数据集上进行了测试。结果表明,该系统在不同语言上表现出不同的最佳表现方法,得分最高的是 m-BERT(Kannada)和 XLM-R(Tamil 和 Malayalam),系统性能达到了一定的水平。
Feb, 2021
本文介绍了我们在多语言环境下识别冒犯性语言的方法,使用数据增强策略,包括使用具有不同阈值的附加半监督标签和跨语言转移与数据选择,并提出了一个新的度量标准 Translation Embedding Distance,用于跨语言数据选择。我们还提出了各种预处理步骤和微调方法,定制社交媒体文本的预训练多语言 BERT(mBERT)来进行冒犯性语言识别,我们的多语言系统在 OffensEval 2020 上取得了有竞争力的结果。
Aug, 2020
该研究在五种不同语言中展开了对仇恨言论的广泛比较分析,使用多种预训练模型评估其在这些语言中识别仇恨言论的性能,并为多语言环境下构建强大的仇恨言论检测系统提供了有益的见解。
Dec, 2023
在这篇研究中,我们探讨了社交媒体上的冒犯性内容识别问题,特别关注多语社会中常见的音译和混合语言现象对自然语言处理系统的挑战。我们引入了一份包含 5000 条手动注释评论的音译孟加拉冒犯性语言数据集(TB-OLID),并在该数据集上对机器学习模型进行训练、微调和评估。结果显示,fBERT 和 HateBERT 等基于英语预训练的 Transformer 模型在该数据集上表现最佳。
Nov, 2023
我们的研究探讨了恶意言论检测领域,特别关注孟加拉语、阿萨姆语和古吉拉特语这三种资源匮乏的印度语言。我们通过 HASOC 2023 数据集对预训练的 BERT 和 SBERT 模型进行微调,评估它们在恶意言论识别中的有效性。研究发现,单语句 BERT 模型表现出卓越的优势,特别是在孟加拉语方面表现最佳。然而,阿萨姆语和古吉拉特语的性能仍有改进的机会。我们的目标是通过打击恶意言论的泛滥来促进包容性的在线空间。
Oct, 2023
本文研究了在社交媒体领域中波斯尼亚语、塔吉克语、哈萨克语和蒙古语的仇恨言论检测的详细结果和关键发现。通过使用 BERT 模型,特别是 XML-Roberta-lagre,在大多数情况下,我们的成果表明其性能优于单语模型。我们的团队在任务 4 - 塔吉克语中获得第 3 名,在波斯尼亚语中获得第 5 名。
Dec, 2023
研究采用基于 mBERT 的神经网络技术,对资源受限的印地语社交媒体上的言论进行多标签分类,结果表明该模型的绩效超过了现有的基准模型,成为了印地语言领域检测敌意的最佳模型。
Jan, 2021