希腊语中的攻击性语言识别

Mar, 2020

Offensive Language Identification in Greek

Zeses Pitenis, Marcos Zampieri, Tharindu Ranasinghe

TL;DR该研究针对互联网社区和社交媒体平台中的恶意内容问题，在英语研究有限的情况下，通过希腊注释数据集 OGTD，评估了几个计算模型，以便识别 Twitter 上的带攻击性的帖子和不带攻击性的帖子。

Abstract

As offensive language has become a rising issue for online communities and social media platforms, researchers have been investigating ways of coping with abusive content and developing systems to detect its different types: →

offensive language cyberbullying hate speech greek annotated dataset twitter

发现论文，激发创造

社交媒体中攻击性帖子的类型和目标预测

本文旨在针对多种不同类型的社交媒体攻击信息进行分类，构建了一个针对这个任务的分层模型，并提供了一个细粒度三层注释方案的 Offensive Language Identification Dataset (OLID) 数据集。最后，我们通过实验证明了不同机器学习模型的性能差异。

Feb, 2019

低资源语言的多语种攻击性语言识别

通过跨语境词嵌入和迁移学习，将预测扩展到低资源语言中，为即将面临的恶意内容提供了解决方案。

May, 2021

推特上的阿拉伯攻击性言论：分析与实验

本论文介绍了一种构建阿拉伯语攻击性社交媒体贴文数据集的方法，分析了导致攻击性社交媒体贴文的因素和阿拉伯语使用攻击性语言的方式，并采用先进技术在该数据集上取得了 F1=83.2 的优秀结果。

Apr, 2020

Twitter 上的攻击性语言检测

本篇报告探讨了社交媒体中侮辱性语言的检测是其中的关键挑战之一，研究者已经提出了许多先进的方法来完成这项任务，在此基础上，作者结合自己的想法，成功实现了 74% 的侮辱性 tweet 分类准确率，并列举了社交媒体世界中即将出现的滥用内容检测挑战。

Sep, 2022

SOLD：僧伽罗语攻击性语言数据集

本研究针对斯里兰卡使用人数超过 1700 万的 Sinhala 语，开发了一个手工注释的数据集 SOLD，和一个更大的半监督数据集 SemiSOLD，用以改进机器学习模型鉴别 Sinhala 语的具有攻击性的语言的能力。

Dec, 2022

跨语言归纳迁移学习用于检测攻击性语言

本文采用跨语言归纳方法基于上下文的词嵌入模型 XLM-RoBERTa 检测跨语言社交媒体中的冒犯性语言，实验结果表明我们的模型在五种语言中表现竞争力，并在零 - shot 学习环境下显示出可扩展性。

Jul, 2020

SemEval-2019 任务 6：社交媒体中的攻击性语言识别和分类（OffensEval）

本文介绍了 SemEval-2019 任务 6（OffensEval）的结果和主要发现，该任务基于一个包含超过 14,000 个英文推文的新数据集 ——Offensive Language Identification Dataset（OLID），它有三个子任务，目标是在社交媒体上识别和分类攻击性语言。

Mar, 2019

预测马拉提语攻击性社交媒体帖子的类型和目标

这篇研究针对印度的低资源印度－雅利安语言 Marathi 进行防御性语言识别研究，介绍了 Marathi Offensive Language Dataset v.2.0（MOLD 2.0）数据集，并通过多次实验对此数据集进行了分析。

Nov, 2022

丹麦的攻击性语言和仇恨言论检测

针对社交媒体上存在的具有攻击性的语言问题，本研究使用自动分类系统，构建了丹麦数据集，开发了适用于英语和丹麦语的自动分类系统，并对不同种类和目标的攻击性语言进行了检测，包括仇恨言论和网络欺凌。

Aug, 2019

多语言模型在社交媒体上识别冒犯性语言的表现

本研究旨在使用多种算法测试识别冒犯帖子的能力，并评估其对多种评估方法的性能，以减少这些语言对人工审核者的伤害。通过实验，本项目能够激发对识别方法和内容的未来研究。

Dec, 2023