希腊语中的攻击性语言识别
本文旨在针对多种不同类型的社交媒体攻击信息进行分类,构建了一个针对这个任务的分层模型,并提供了一个细粒度三层注释方案的 Offensive Language Identification Dataset (OLID) 数据集。最后,我们通过实验证明了不同机器学习模型的性能差异。
Feb, 2019
本论文介绍了一种构建阿拉伯语攻击性社交媒体贴文数据集的方法,分析了导致攻击性社交媒体贴文的因素和阿拉伯语使用攻击性语言的方式,并采用先进技术在该数据集上取得了 F1=83.2 的优秀结果。
Apr, 2020
本篇报告探讨了社交媒体中侮辱性语言的检测是其中的关键挑战之一,研究者已经提出了许多先进的方法来完成这项任务,在此基础上,作者结合自己的想法,成功实现了 74% 的侮辱性 tweet 分类准确率,并列举了社交媒体世界中即将出现的滥用内容检测挑战。
Sep, 2022
本研究针对斯里兰卡使用人数超过 1700 万的 Sinhala 语,开发了一个手工注释的数据集 SOLD,和一个更大的半监督数据集 SemiSOLD,用以改进机器学习模型鉴别 Sinhala 语的具有攻击性的语言的能力。
Dec, 2022
本文采用跨语言归纳方法基于上下文的词嵌入模型 XLM-RoBERTa 检测跨语言社交媒体中的冒犯性语言,实验结果表明我们的模型在五种语言中表现竞争力,并在零 - shot 学习环境下显示出可扩展性。
Jul, 2020
本文介绍了 SemEval-2019 任务 6(OffensEval)的结果和主要发现,该任务基于一个包含超过 14,000 个英文推文的新数据集 ——Offensive Language Identification Dataset(OLID),它有三个子任务,目标是在社交媒体上识别和分类攻击性语言。
Mar, 2019
这篇研究针对印度的低资源印度-雅利安语言 Marathi 进行防御性语言识别研究,介绍了 Marathi Offensive Language Dataset v.2.0(MOLD 2.0)数据集,并通过多次实验对此数据集进行了分析。
Nov, 2022
针对社交媒体上存在的具有攻击性的语言问题,本研究使用自动分类系统,构建了丹麦数据集,开发了适用于英语和丹麦语的自动分类系统,并对不同种类和目标的攻击性语言进行了检测,包括仇恨言论和网络欺凌。
Aug, 2019
本研究旨在使用多种算法测试识别冒犯帖子的能力,并评估其对多种评估方法的性能,以减少这些语言对人工审核者的伤害。通过实验,本项目能够激发对识别方法和内容的未来研究。
Dec, 2023