在社交媒体上检测仇恨言论

Dec, 2017

Detecting Hate Speech in Social Media

Shervin Malmasi, Marcos Zampieri

TL;DR本文通过使用字符 n-gram、单词 n-gram 和单词 skip-gram 的方法，利用最近发布的 annotated dataset 建立基于词汇的垃圾言论检测任务，并成功实现了 78% 的准确率。研究结果表明，区分垃圾言论和粗俗言论之间的主要难题在于歧视。最后，文章提出了未来的研究方向。

Abstract

In this paper we examine methods to detect hate speech in social media, while distinguishing this from general profanity. We aim to establ

hate speech social media supervised classification lexical baselines profanity

发现论文，激发创造

区分粗言秽语和仇恨言论中的挑战

本研究通过使用新的数据集及一系列特征，包括 n-grams、skip-grams 和基于聚类的单词表示等，运用监督式分类方法，分别采用单个分类器、集成分类器和堆叠泛化等方法来区分社交媒体上的普通粗口和仇恨言论，获得了 80% 的准确率。然而，研究发现要区分仇恨言论和粗口并不是一件简单的任务。

Mar, 2018

基于 N-gram 和 TFIDF 的机器学习方法在 Twitter 上检测仇恨言论和攻击性语言

本文提出了一种利用机器学习方法，针对推特中的恶意信息、攻击性言论以及清晰文本进行分类的方法，并通过比较实验，得出了最高达 95.6% 准确率的分类模型，同时还开发了中间模块使用户可以方便地访问此工具。

Sep, 2018

自動化檢測仇恨言論及冒犯性語言問題

该研究利用众包的方法，通过使用集成的多分类器和众包获得的仇恨言论词汇，成功区分了具有仇恨言辞、仅具有冒犯性言辞以及没有冒犯性言辞的推文。

Mar, 2017

仇恨言论检测的作者画像

本文提出了一种基于社区特征的推特用户恶意言论检测方法，实验结果显示该方法在检测恶意言论方面的效果显著优于现有的方法。

Feb, 2019

探究社交媒体中针对仇恨言论的深度学习方法

本文提出利用深度学习方法，结合各种嵌入技术，在社交媒体中检测各种类型的仇恨言论，特别是在包含有限上下文信息的推文中，这是一种非常具有挑战性的任务，三个公开数据集的实验结果表明精确度和 F1 得分都有显著提高。

May, 2020

社交媒体中的上下文仇恨言论词汇挖掘

通过社群检测方法和词嵌入模型，本研究发现标记数据和关键词方法在探测新兴极端组织使用的词汇时效果不佳，提出使用学到的代号词汇来识别 hate speech 的方法，通过实验得出该方法的准确度比使用关键词更高，可以被应用于自动化 hate speech 检测。

Nov, 2017

网络仇恨：解决在线社交空间中的仇恨言论问题

该研究论文探讨在线社交平台上仇恨性言论的检测方法，指出基于关键词方法检测的不足，并提出利用自我定义仇恨社区产生的内容作为训练数据的方法，实现了良好的检测性能。

Sep, 2017

基于深度神经网络的改进型 Twitter 两阶段仇恨言论分类

本文借助改进的 LSTM 神经网络架构，提出了一种基于 One-vs-Rest 分类器的两阶段方案，用于在社交媒体上自动检测仇恨性内容，并在公共语料库和其他数据集上进行了实验，结果显示其在仇恨言论检测任务中具有卓越的分类性能。

Jun, 2022

基于特征提取的仇恨言论识别模型

本文介绍了 TU Berlin 小组在 2021 年印欧语言仇恨言论与攻击性内容检测共享任务的 1A 和 1B 子任务中采用的不同自然语言处理模型，包括基于循环神经网络的单词和字符级别模型以及基于 Bert 的转移学习方法，并评估了不同模型在比赛中的表现。结果表明，基于转移学习的模型在两个子任务中均取得了最佳结果。

Jan, 2022

孟加拉语仇恨言论检测：数据集及其基准评估

本文针对社交媒体上孟加拉语仇恨言论检测的挑战，通过众包标注和专家验证构建了一个包含 30,000 条用户评论的数据集，并利用多个深度学习模型对其进行了实验。结果表明将 SVM 用于该数据集能够获得 87.5% 的准确率，该数据集将推动孟加拉语仇恨言论检测领域的未来研究机会。

Dec, 2020