Oct, 2018

在线毒性检测的机器学习套件

TL;DR本文使用数据科学的现代工具将原始文本转化成关键特征,并使用阈值法或学习算法对其进行分类以监控具有攻击性的网络对话,通过系统评估62个分类器,从19个主要算法组中抽取特征并分析其准确性及相对执行时间。在语法、情感、情绪以及离群字典的28个特征中,一个简单的脏词列表被证明是最有预测性的评价有攻击性评论的方法,其中基于树的算法提供最透明易懂的规则,并排列特征的预测贡献。