Feb, 2022

一种简单的、与语言无关的却非常强大的基线系统,用于仇恨言论和攻击性内容的识别

TL;DR通过使用基于字符 n-gram 的经典监督算法,SATLab 团队提出了一种自动识别推文中仇恨言论和冒犯性内容的系统,该系统与语言无关。在优化特征加权和分类器参数后,该系统在英语中达到了中等表现水平,在印地语和马拉地语这两种资源较少的语言中表现更好,甚至在这些语言的三项任务中的平均表现要比许多深度学习方法更好。表现表明该方法是一个有趣的参考水平,可用于评估使用更复杂方法(例如深度学习或考虑补充资源)的好处。