Aug, 2022
利用HateXplain和BERT探索仇恨言论检测
Exploring Hate Speech Detection with HateXplain and BERT
TL;DRHateXplain采用注释的句子片段、言论分类和针对性群体,使分类更像人类,更易于解释、更准确、更少偏见。我们将BERT调整为使用rationales和类别预测进行此任务,并比较了我们在准确性、可解释性和偏见方面的不同指标上的表现。我们的新颖之处在于三个方面,首先,我们使用不同重要性值的合并rationale类损失进行实验。其次,我们在rationales上广泛实验了ground truth attention值。第三,为了提高我们的模型中的无意偏见,我们使用了目标社区单词的屏蔽,并记录了偏见和可解释性指标的改善。总的来说,我们成功地实现了模型的可解释性、偏见消除,并在原始BERT实现上取得了几项增量改进。