HARE:可解释的仇恨言论检测配有逐步推理
为了解决社交媒体中的仇恨言论问题,本文提出使用最新的大型语言模型(LLMs)从文本中提取特征,以训练基于仇恨言论分类器,从而实现设计上的可信解释性。全面评估了多个社交媒体仇恨言论数据集,证明了 LLMs 提取的解释特征的优越性以及实现解释性后依然保持良好性能的惊人结果。
Mar, 2024
HateXplain 采用注释的句子片段、言论分类和针对性群体,使分类更像人类,更易于解释、更准确、更少偏见。我们将 BERT 调整为使用 rationales 和类别预测进行此任务,并比较了我们在准确性、可解释性和偏见方面的不同指标上的表现。我们的新颖之处在于三个方面,首先,我们使用不同重要性值的合并 rationale 类损失进行实验。其次,我们在 rationales 上广泛实验了 ground truth attention 值。第三,为了提高我们的模型中的无意偏见,我们使用了目标社区单词的屏蔽,并记录了偏见和可解释性指标的改善。总的来说,我们成功地实现了模型的可解释性、偏见消除,并在原始 BERT 实现上取得了几项增量改进。
Aug, 2022
本文介绍了 HateXplain,这是一项针对多个问题方面的第一个基准仇恨言论数据集,使用基本、常用的 3 级分类、目标社区和理由对数据集中的每个帖子进行了注释。我们利用现有的最先进模型观察到,即使在分类方面表现非常好的模型在模型合理性和忠实度等可解释度指标上也得分不高。此外,我们还观察到,利用人类理由进行训练的模型在减少对目标社区的非预期偏见方面表现更好。
Dec, 2020
本研究提出了一种基于 Masked Rationale Prediction 的方法来提高仇恨言论检测模型的性能和可解释性,该方法通过预测片段来增强推理能力,从而使模型更加健壮和可解释。研究结果表明,该方法具有良好的性能和有效性。
Nov, 2022
本研究综合并比较了各种仇恨言论检测模型的鲁棒性,并使用可解释性技术评估了这些模型对抗性攻击的鲁棒性,从而发现了一些潜在的漏洞和强项,并为创建更加鲁棒和可靠的检测系统打下了基础。
May, 2023
该论文提出了一种名为 DeepHateExplainer 的方法,利用神经集成(即单语言孟加拉 BERT-base、多语言 BERT-cased/uncased 和 XLM-RoBERTa)从计算资源匮乏的孟加拉语中分类政治、个人、地缘政治和宗教仇恨,通过敏感度分析和层内关联传播技术(LRP)鉴别出最重要和最不重要的术语,评估得分表明,该方法对底层的机器学习和神经网络模型均有较好的表现
Dec, 2020
使用深度神经模型自动检测仇恨言论受到标记数据稀缺性的影响,从而导致泛化能力差。为了缓解这个问题,利用生成式人工智能从现有标记示例中生成大量合成仇恨言论序列,并将生成的数据应用于微调大型预训练语言模型,如 BERT、RoBERTa 和 ALBERT。我们研究了相关方法、实验设置和这种方法的评估。此外,我们使用已经适应仇恨检测的预训练语言模型(包括 RoBERTa-Toxicity、HateBERT、HateXplain、ToxDect 和 ToxiGen)在训练集上对生成的数据进行扩充,然后应用和评估其影响。经验证实,这种方法改进了对仇恨言论的泛化能力,提高了不同数据分布下的召回性能。此外,我们还使用 GPT-3.5 模型探索和比较微调后的预训练语言模型在零样本仇恨检测方面的性能。结果表明,尽管 GPT-3.5 模型的泛化效果更好,但对大多数数据集而言,其召回率中等且精确度低。目前尚不清楚是否可以使用类似的文本生成技术来改善 GPT-3.5 及后续模型的敏感性。
Nov, 2023
本研究提出了一种新方法,利用情感话题标记在自然语言推理框架中增强仇恨言论检测,并在实际数据集上证明了其相对于现有表示学习模型的有效性。
Apr, 2022
利用不同的提示变体、输入信息和在零样本设置中评估大型语言模型,研究探讨在检测讨厌或有害语言时使用解释、上下文和受害群体信息,并发现不仅将目标信息包含在流程中可以显著提高模型性能 (约 20-30%),而且将理由 / 解释加入流程会在不同数据集上相较基线进一步提升性能 (约 10-20%);此外,提供了大型语言模型无法对决策进行分类和解释的错误案例分类,这些薄弱点自动构成这些模型的越狱提示,需要研发产业规模的安全技术来增强模型对抗此类提示。
Oct, 2023