区分粗言秽语和仇恨言论中的挑战

Mar, 2018

区分粗言秽语和仇恨言论中的挑战

Challenges in Discriminating Profanity from Hate Speech

Shervin Malmasi, Marcos Zampieri

TL;DR本研究通过使用新的数据集及一系列特征，包括 n-grams、skip-grams 和基于聚类的单词表示等，运用监督式分类方法，分别采用单个分类器、集成分类器和堆叠泛化等方法来区分社交媒体上的普通粗口和仇恨言论，获得了 80% 的准确率。然而，研究发现要区分仇恨言论和粗口并不是一件简单的任务。

Abstract

In this study we approach the problem of distinguishing general profanity from hate speech in social media, something which has not been w

profanity hate speech social media classification n-grams

发现论文，激发创造

在社交媒体上检测仇恨言论

本文通过使用字符 n-gram、单词 n-gram 和单词 skip-gram 的方法，利用最近发布的 annotated dataset 建立基于词汇的垃圾言论检测任务，并成功实现了 78% 的准确率。研究结果表明，区分垃圾言论和粗俗言论之间的主要难题在于歧视。最后，文章提出了未来的研究方向。

Dec, 2017

网络有害言论的多维度识别视角：不只是仇恨

本文介绍了一种使用多个标签注释恶意在线言论的方法，强调了注释应该是细致、准确的。作者发布了一个高质量的数据集，使用六个标签注释了超过 40,000 条有关移民的推文，在此数据集上训练模型的表现优于基准数据集。

Oct, 2022

自動化檢測仇恨言論及冒犯性語言問題

该研究利用众包的方法，通过使用集成的多分类器和众包获得的仇恨言论词汇，成功区分了具有仇恨言辞、仅具有冒犯性言辞以及没有冒犯性言辞的推文。

Mar, 2017

基于 N-gram 和 TFIDF 的机器学习方法在 Twitter 上检测仇恨言论和攻击性语言

本文提出了一种利用机器学习方法，针对推特中的恶意信息、攻击性言论以及清晰文本进行分类的方法，并通过比较实验，得出了最高达 95.6% 准确率的分类模型，同时还开发了中间模块使用户可以方便地访问此工具。

Sep, 2018

推特上滥用语言的比较研究

本文研究了在 Twitter 上关于仇恨言论和辱骂的数据集，考察了不同的学习模型和额外特征的加入，并得出了使用双向 GRU 网络结合潜在主题聚类模型的最优模型，F1 得分为 0.805。

Aug, 2018

构建仇恨言论检测数据集的挑战

通过对针对性别少数群体的仇恨言论的具体例子，本文分析了仇恨言论检测所面临的问题，并提出了一个以数据为中心的综合框架，以跨七个广泛的维度来概括数据创建流程，同时指出实践者将从按照该框架来创建未来的仇恨言论数据集中获益。

Sep, 2023

基于深度学习的推文中的恶意语言检测

该论文提出了一种在社交媒体上识别仇恨内容的检测方案，并使用带有用户相关信息的各种特征以及来自文本内容的词频向量输入到一组循环神经网络分类器中，经实验证明该方法的有效性不仅可以成功区分仇恨言论和正常文本，而且分类的准确性也高于现有的最先进算法。

Jan, 2018

基于深度神经网络的改进型 Twitter 两阶段仇恨言论分类

本文借助改进的 LSTM 神经网络架构，提出了一种基于 One-vs-Rest 分类器的两阶段方案，用于在社交媒体上自动检测仇恨性内容，并在公共语料库和其他数据集上进行了实验，结果显示其在仇恨言论检测任务中具有卓越的分类性能。

Jun, 2022

社交媒体中的上下文仇恨言论词汇挖掘

通过社群检测方法和词嵌入模型，本研究发现标记数据和关键词方法在探测新兴极端组织使用的词汇时效果不佳，提出使用学到的代号词汇来识别 hate speech 的方法，通过实验得出该方法的准确度比使用关键词更高，可以被应用于自动化 hate speech 检测。

Nov, 2017

探索边界和强度：揭示社交媒体言论的复杂范围

使用 8,258 条推特进行标注，该研究创建了一个广泛的 Amharic 基准数据集，用于三个任务：分类、识别仇恨目标和评估冒犯和仇恨的强度。结果显示，仇恨和冒犯性言论无法用简单的二元分类解决，并且在连续数值范围内变量化。Afro-XLMR-large 模型在这些任务中表现出最好的性能，分别达到了 75.30％，70.59％和 29.42％的 F1 分数。Afro-XLMR-large 模型的 80.22％相关系数显示了强大的一致性。

Apr, 2024