ToxVis: 交互式可视化实现隐式与显式毒性检测模型的可解释性
本文提出一种改进 transformer-based models 解释性的技术,通过假设一篇文章至少和其最有毒的部分一样有毒,并将其纳入训练过程来提高模型的可解释性,实验证明该方法优于逻辑回归分析,具备更高的质量和解释性。
Mar, 2021
利用语言模型为隐藏的仇恨帖子生成解释是一个活跃的研究领域,解释的目的是明确潜在的刻板印象并帮助内容管理员。研究通常结合前 k 个相关的知识图谱 (KG) 元组来提供世界知识并改善标准指标的性能,但我们的研究提出了冲突的证据,认为 KG 元组的质量在生成隐含解释方面的作用不明确。因此,将外部毒性信号纳入的简化模型优于 KG 融合模型。在 SBIC(LatentHatred)数据集上,我们观察到相当的性能表现,BLEU、ROUGE-L 和 BERTScore 的性能变化分别为 + 0.44 (+0.49)、+1.83 (-1.56) 和 - 4.59 (+0.77)。进一步的人工评估和错误分析表明,我们提出的设置比零样本 GPT-3.5 产生了更精确的解释,突显了任务的复杂性。
Jun, 2024
本文介绍了一种机器学习和自然语言处理模型,通过自动识别网页文本中的仇恨言论以及利用迁移学习技术构建了一个识别仇恨言论的表示方法,并开发了一个可视化工具用于多个数据集的简要分析。
Jun, 2019
利用不同的提示变体、输入信息和在零样本设置中评估大型语言模型,研究探讨在检测讨厌或有害语言时使用解释、上下文和受害群体信息,并发现不仅将目标信息包含在流程中可以显著提高模型性能 (约 20-30%),而且将理由 / 解释加入流程会在不同数据集上相较基线进一步提升性能 (约 10-20%);此外,提供了大型语言模型无法对决策进行分类和解释的错误案例分类,这些薄弱点自动构成这些模型的越狱提示,需要研发产业规模的安全技术来增强模型对抗此类提示。
Oct, 2023
本研究综合并比较了各种仇恨言论检测模型的鲁棒性,并使用可解释性技术评估了这些模型对抗性攻击的鲁棒性,从而发现了一些潜在的漏洞和强项,并为创建更加鲁棒和可靠的检测系统打下了基础。
May, 2023
HateXplain 采用注释的句子片段、言论分类和针对性群体,使分类更像人类,更易于解释、更准确、更少偏见。我们将 BERT 调整为使用 rationales 和类别预测进行此任务,并比较了我们在准确性、可解释性和偏见方面的不同指标上的表现。我们的新颖之处在于三个方面,首先,我们使用不同重要性值的合并 rationale 类损失进行实验。其次,我们在 rationales 上广泛实验了 ground truth attention 值。第三,为了提高我们的模型中的无意偏见,我们使用了目标社区单词的屏蔽,并记录了偏见和可解释性指标的改善。总的来说,我们成功地实现了模型的可解释性、偏见消除,并在原始 BERT 实现上取得了几项增量改进。
Aug, 2022
本论文介绍了 ToxiGen,一个新的大规模自动生成的 274k 毒性和良性陈述数据集,用于检测涉及 13 个少数群体的文本。通过使用基于展示的提示框架和诱导循环解码方法来生成微妙的毒性和良性文本,ToxiGen 能够覆盖范围更广的暗含毒性文本,包括更多样化的人口群体。与此同时,研究者通过人类评估表明,94.5%的毒性示例被人类标注者标记为仇恨言论。合理的数据利用对文本分类器的提高有积极的作用。
Mar, 2022
该研究探讨了使用语义和多模态上下文来检测隐含和明确的仇恨言论,并且发现使用这种方法可以提高模型性能。同时还针对一批 5000 个多模态内容样本进行了高质量的注释,并将其释放为公开可用的语料库和代码。
Jun, 2021