Mar, 2018
区分粗言秽语和仇恨言论中的挑战
Challenges in Discriminating Profanity from Hate Speech
Shervin Malmasi, Marcos Zampieri
TL;DR本研究通过使用新的数据集及一系列特征,包括 n-grams、skip-grams 和基于聚类的单词表示等,运用监督式分类方法,分别采用单个分类器、集成分类器和堆叠泛化等方法来区分社交媒体上的普通粗口和仇恨言论,获得了 80% 的准确率。然而,研究发现要区分仇恨言论和粗口并不是一件简单的任务。