AAAIDec, 2020

HateXplain: 可解释仇恨言论检测的基准数据集

TL;DR本文介绍了 HateXplain,这是一项针对多个问题方面的第一个基准仇恨言论数据集,使用基本、常用的 3 级分类、目标社区和理由对数据集中的每个帖子进行了注释。我们利用现有的最先进模型观察到,即使在分类方面表现非常好的模型在模型合理性和忠实度等可解释度指标上也得分不高。此外,我们还观察到,利用人类理由进行训练的模型在减少对目标社区的非预期偏见方面表现更好。