Duluth 在 SemEval-2019 任务 6 中：识别和分类具有攻击性的推文的词汇方法

ACLJul, 2020

Duluth 在 SemEval-2019 任务 6 中：识别和分类具有攻击性的推文的词汇方法

Duluth at SemEval-2019 Task 6: Lexical Approaches to Identify and Categorize Offensive Tweets

Ted Pedersen

TL;DR本研究介绍了 Duluth 系统在 SemEval-2019 Task 6 中的表现，主要采用传统机器学习的方法，通过手动标记的训练数据中的词汇特征构建分类器来识别和分类社交媒体中的冒犯性语言，其中最成功的分类方法是基于规则的黑名单方法并尝试将两个不同但相关的 SemEval 任务的训练数据合并，最终在三个 OffensEval 任务中的最佳系统在比较评估中排名中等。

Abstract

This paper describes the Duluth systems that participated in SemEval--2019 Task 6, Identifying and Categorizing offensive language in Social Media (OffensEval). For the most part these systems took traditional machine l

semeval-2019 offensive language machine learning lexical features rule-based approach

发现论文，激发创造

Duluth 在 SemEval-2020 任务 12 中：使用逻辑回归在英语中识别具有攻击性的推文

本文介绍了 Duluth 系统参加了 SemEval-2020 任务 12：社交媒体中的多语种攻击性语言识别（OffensEval-2020），利用逻辑回归提供了一个简单的机器学习基线，并使用任务组织者提供的远程监督训练数据进行了模型训练。然而，最终在比较评估中的排名并不高，我们进行了定性分析并发现金标准数据中的类别标签有一定的噪声，这样的高排名可能反映的是训练数据上过拟合而并不能很好地预测英语中攻击性语言的特点。

Jul, 2020

SemEval-2019 任务 6：社交媒体中的攻击性语言识别和分类（OffensEval）

本文介绍了 SemEval-2019 任务 6（OffensEval）的结果和主要发现，该任务基于一个包含超过 14,000 个英文推文的新数据集 ——Offensive Language Identification Dataset（OLID），它有三个子任务，目标是在社交媒体上识别和分类攻击性语言。

Mar, 2019

从 Twitter 辨识攻击性帖文和攻击目标

本文介绍了我们在 SemEval 2019 任务 6：识别和分类社交媒体中的冒犯性语言的子任务 A 和子任务 B 中的方法和系统描述。其中子任务 A 包括确定给定推文是否具有冒犯性，子任务 B 涉及检测是否针对某人（团体或个人）的攻击性推文。我们基于卷积神经网络，带有关注机制的双向 LSTM 和双向 LSTM + 双向 GRU 的集成模型进行子任务 A 的建模，而对于子任务 B，我们依赖于从训练数据和手动观察中得出的一组启发式规则。我们详细分析了使用训练模型获得的结果。我们的团队在子任务 A 中排名第 5，获得 0.807 的宏 F1 分数，在子任务 B 中排名第 8，获得 0.695 的宏 F1 分数。

Apr, 2019

利用 BERT 和 SVM 识别冒犯性推文的 SemEval-2019 任务 6 中的 UM-IU@LING

介绍了 UM-IU@LING 在 SemEval 2019 Task 6 中采用混合方法识别和分类社交媒体中的仇恨言论的系统，在子任务 A 中，使用经过微调的基于 BERT 的分类器在推文中检测恶意内容，在测试集上获得了 0.8136 的宏 F1 分数，位于 103 个提交中的第三名，在任务 B 和 C 中，使用选定字符 n-gram 特征的线性支持向量机，在子任务 C 中，系统可以识别出滥用的目标，最终在 65 个提交中排名第 27 位。

Apr, 2019

Twitter 上的攻击性语言检测

本篇报告探讨了社交媒体中侮辱性语言的检测是其中的关键挑战之一，研究者已经提出了许多先进的方法来完成这项任务，在此基础上，作者结合自己的想法，成功实现了 74% 的侮辱性 tweet 分类准确率，并列举了社交媒体世界中即将出现的滥用内容检测挑战。

Sep, 2022

SemEval-2020 任务 12：社交媒体中的多语种攻击性语言识别（OffensEval 2020）

总结 SemEval-2020 中的 OffensEval 任务，它涉及多语言社交媒体中的多语种冒犯性语言识别，并说明了其在 OffensEval 2019 中的分层分类结构。

Jun, 2020

基于深度学习的推文中的恶意语言检测

该论文提出了一种在社交媒体上识别仇恨内容的检测方案，并使用带有用户相关信息的各种特征以及来自文本内容的词频向量输入到一组循环神经网络分类器中，经实验证明该方法的有效性不仅可以成功区分仇恨言论和正常文本，而且分类的准确性也高于现有的最先进算法。

Jan, 2018

自動化檢測仇恨言論及冒犯性語言問題

该研究利用众包的方法，通过使用集成的多分类器和众包获得的仇恨言论词汇，成功区分了具有仇恨言辞、仅具有冒犯性言辞以及没有冒犯性言辞的推文。

Mar, 2017

多语言模型在社交媒体上识别冒犯性语言的表现

本研究旨在使用多种算法测试识别冒犯帖子的能力，并评估其对多种评估方法的性能，以减少这些语言对人工审核者的伤害。通过实验，本项目能够激发对识别方法和内容的未来研究。

Dec, 2023

GUIR at SemEval-2020 Task 12：面向领域的上下文调整模型用于攻击性语言检测

本文探讨了利用经过领域调整的上下文化语言模型（BERT）以及叠加不同组件和配置（如：多视图支持向量机）来识别带有攻击性语言的存在、带有目标的攻击性语言的存在和目标的类别，作者提出的提交方案在 OffensEval 2020 共享任务中分别取得了 91.7%、66.5% 和 63.2% 的 F1 得分。通过消融实验和误差分析，作者发现领域调整可以极大地提高分类性能，并提出未来的研究方向。

Jul, 2020