Aug, 2022

利用 HateXplain 和 BERT 探索仇恨言论检测

TL;DRHateXplain 采用注释的句子片段、言论分类和针对性群体,使分类更像人类,更易于解释、更准确、更少偏见。我们将 BERT 调整为使用 rationales 和类别预测进行此任务,并比较了我们在准确性、可解释性和偏见方面的不同指标上的表现。我们的新颖之处在于三个方面,首先,我们使用不同重要性值的合并 rationale 类损失进行实验。其次,我们在 rationales 上广泛实验了 ground truth attention 值。第三,为了提高我们的模型中的无意偏见,我们使用了目标社区单词的屏蔽,并记录了偏见和可解释性指标的改善。总的来说,我们成功地实现了模型的可解释性、偏见消除,并在原始 BERT 实现上取得了几项增量改进。