Feb, 2016

多语言推特情感分类:人类标注员的角色

TL;DR该研究分析使用不同语言的大量手动标记的推文作为训练数据构建自动分类模型时,训练数据的质量和数量对于分类模型的质量比所使用的模型类型更为重要,并且当训练集的大小足够大时,模型的性能接近于标注者一致性,但定期监视标注者的一致性是非常重要的,从而改善训练数据集和模型性能,最后我们还表明,有强有力的证据表明,人们认为情感类别(消极的,中性的和积极的)是有序的。