本文探讨了如何利用跨语境上下文词向量和迁移学习在使用资源较少的本地化语言中进行社交媒体中的冒犯内容检测,结果表明这个方法在孟加拉语、印地语和西班牙语等多种语言中的检测效率较高。
Oct, 2020
通过跨语境词嵌入和迁移学习,将预测扩展到低资源语言中,为即将面临的恶意内容提供了解决方案。
May, 2021
该研究在五种不同语言中展开了对仇恨言论的广泛比较分析,使用多种预训练模型评估其在这些语言中识别仇恨言论的性能,并为多语言环境下构建强大的仇恨言论检测系统提供了有益的见解。
Dec, 2023
本文介绍了 TU Berlin 小组在 2021 年印欧语言仇恨言论与攻击性内容检测共享任务的 1A 和 1B 子任务中采用的不同自然语言处理模型,包括基于循环神经网络的单词和字符级别模型以及基于 Bert 的转移学习方法,并评估了不同模型在比赛中的表现。结果表明,基于转移学习的模型在两个子任务中均取得了最佳结果。
Jan, 2022
本文介绍了在社交媒体中迅速增长的仇恨言论现象以及如何使用多语言算法进行检测,其中包括 Hindi、德语和英语等三种语言,使用的数据集是通过机器学习系统对 Twitter 进行分类得到的,并使用了变压器结构 BERT 进行实验。
Aug, 2021
本篇论文探索了基于 Transformer 的多种机器学习模型,用于探测英语和印度 - 雅利安语中的仇恨言论和冒犯性内容,研究团队 “超级马里奥” 采用 mBERT、XLMR-large、XLMR-base 等多种模型,我们在 Code-Mixed 数据集排名第二(宏平均 F1:0.7107)、在印地语二分类中排名第二(宏平均 F1:0.7797)、在英语四分类中排名第四(宏平均 F1:0.8006),在英语二分类中排名第十二(宏平均 F1:0.6447)。
Nov, 2021
该研究论文介绍了 HASOC 子轨道,旨在为英语、印地语和马拉地语开发基准数据集,以支持在线平台的内容审核。他们解释了两种分析方法,分别为二元分类和精细分类问题,并提供分类算法的性能结果。
Dec, 2021
该论文基于 Transformer 语言模型,研究了在社交媒体文本中检测和分类仇恨的问题,并将其固定为三类,同时证明了多语言训练模式的有效性和特定特征对体系结构分类表现的影响。
Jan, 2021
针对社交媒体中存在的多语言仇恨言论,本文提出了一种针对多语言仇恨言论模型的功能集,被用于对现有模型的诊断分析。通过以印地语为基础语言,构建了 HateCheckHIn 评估数据集,测试了最先进的基于 Transformer 的 m-BERT 模型以及 Perspective API。
Apr, 2022
本文介绍了我们基于梯度提升机、BERT 和 LASER 嵌入式开发的 HateMonitor 模型,在 Indo-European Languages HASOC(FIRE 2019 的任务之一)中排名第一,用于令人讨厌和令人反感的内容识别。
Sep, 2019