基于 N-gram 和 TFIDF 的机器学习方法在 Twitter 上检测仇恨言论和攻击性语言

Sep, 2018

基于 N-gram 和 TFIDF 的机器学习方法在 Twitter 上检测仇恨言论和攻击性语言

Detecting Hate Speech and Offensive Language on Twitter using Machine Learning: An N-gram and TFIDF based Approach

Aditya Gaydhani, Vikrant Doma, Shrikant Kendre, Laxmi Bhagwat

TL;DR本文提出了一种利用机器学习方法，针对推特中的恶意信息、攻击性言论以及清晰文本进行分类的方法，并通过比较实验，得出了最高达 95.6% 准确率的分类模型，同时还开发了中间模块使用户可以方便地访问此工具。

Abstract

toxic online content has become a major issue in today's world due to an exponential increase in the use of internet by people of different cultures and educational background. Differentiating hate speech and

toxic online content hate speech offensive language automatic classification machine learning

发现论文，激发创造

基于深度学习的推文中的恶意语言检测

该论文提出了一种在社交媒体上识别仇恨内容的检测方案，并使用带有用户相关信息的各种特征以及来自文本内容的词频向量输入到一组循环神经网络分类器中，经实验证明该方法的有效性不仅可以成功区分仇恨言论和正常文本，而且分类的准确性也高于现有的最先进算法。

Jan, 2018

在社交媒体上检测仇恨言论

本文通过使用字符 n-gram、单词 n-gram 和单词 skip-gram 的方法，利用最近发布的 annotated dataset 建立基于词汇的垃圾言论检测任务，并成功实现了 78% 的准确率。研究结果表明，区分垃圾言论和粗俗言论之间的主要难题在于歧视。最后，文章提出了未来的研究方向。

Dec, 2017

自動化檢測仇恨言論及冒犯性語言問題

该研究利用众包的方法，通过使用集成的多分类器和众包获得的仇恨言论词汇，成功区分了具有仇恨言辞、仅具有冒犯性言辞以及没有冒犯性言辞的推文。

Mar, 2017

利用多语言转换器来进行仇恨言论检测

该论文基于 Transformer 语言模型，研究了在社交媒体文本中检测和分类仇恨的问题，并将其固定为三类，同时证明了多语言训练模式的有效性和特定特征对体系结构分类表现的影响。

Jan, 2021

Twitter 上的攻击性语言检测

本篇报告探讨了社交媒体中侮辱性语言的检测是其中的关键挑战之一，研究者已经提出了许多先进的方法来完成这项任务，在此基础上，作者结合自己的想法，成功实现了 74% 的侮辱性 tweet 分类准确率，并列举了社交媒体世界中即将出现的滥用内容检测挑战。

Sep, 2022

基于特征提取的仇恨言论识别模型

本文介绍了 TU Berlin 小组在 2021 年印欧语言仇恨言论与攻击性内容检测共享任务的 1A 和 1B 子任务中采用的不同自然语言处理模型，包括基于循环神经网络的单词和字符级别模型以及基于 Bert 的转移学习方法，并评估了不同模型在比赛中的表现。结果表明，基于转移学习的模型在两个子任务中均取得了最佳结果。

Jan, 2022

仇恨言论检测的作者画像

本文提出了一种基于社区特征的推特用户恶意言论检测方法，实验结果显示该方法在检测恶意言论方面的效果显著优于现有的方法。

Feb, 2019

基于 BERT 的在线社交媒体仇恨言论检测的迁移学习方法

本研究提出了一种基于 BERT 和 Transfer Learning 的新型方案，以捕获社交媒体内容中的仇恨语境，并证明该方案能有效解决标注数据不足和存在偏差的问题，使得模型性能得到提升。

Oct, 2019

推特上滥用语言的比较研究

本文研究了在 Twitter 上关于仇恨言论和辱骂的数据集，考察了不同的学习模型和额外特征的加入，并得出了使用双向 GRU 网络结合潜在主题聚类模型的最优模型，F1 得分为 0.805。

Aug, 2018

在线毒性检测的机器学习套件

本文使用数据科学的现代工具将原始文本转化成关键特征，并使用阈值法或学习算法对其进行分类以监控具有攻击性的网络对话，通过系统评估 62 个分类器，从 19 个主要算法组中抽取特征并分析其准确性及相对执行时间。在语法、情感、情绪以及离群字典的 28 个特征中，一个简单的脏词列表被证明是最有预测性的评价有攻击性评论的方法，其中基于树的算法提供最透明易懂的规则，并排列特征的预测贡献。

Oct, 2018