利用可解释性设计对抗攻击并评估仇恨言论检测模型的攻击韧性

May, 2023

利用可解释性设计对抗攻击并评估仇恨言论检测模型的攻击韧性

Exploiting Explainability to Design Adversarial Attacks and Evaluate Attack Resilience in Hate-Speech Detection Models

Pranath Reddy Kumbam, Sohaib Uddin Syed, Prashanth Thamminedi, Suhas Harish, Ian Perera...

TL;DR本研究综合并比较了各种仇恨言论检测模型的鲁棒性，并使用可解释性技术评估了这些模型对抗性攻击的鲁棒性，从而发现了一些潜在的漏洞和强项，并为创建更加鲁棒和可靠的检测系统打下了基础。

Abstract

The advent of social media has given rise to numerous ethical challenges, with hate speech among the most significant concerns. Researchers are attempting to tackle this problem by leveraging hate-speech detection

social media hate-speech detection adversarial attacks interpretability resilience

发现论文，激发创造

使用模型无关的方法解释仇恨言论分类

本文研究了如何使用 BERT 模型和 LIME 算法来预测和解释仇恨言论，并提出了一种模型无关的解释方法，以支持系统的决策并防止模型偏差。

May, 2023

探索 LLMs 用于仇恨言论检测：优势和脆弱性

利用不同的提示变体、输入信息和在零样本设置中评估大型语言模型，研究探讨在检测讨厌或有害语言时使用解释、上下文和受害群体信息，并发现不仅将目标信息包含在流程中可以显著提高模型性能 (约 20-30%)，而且将理由 / 解释加入流程会在不同数据集上相较基线进一步提升性能 (约 10-20%)；此外，提供了大型语言模型无法对决策进行分类和解释的错误案例分类，这些薄弱点自动构成这些模型的越狱提示，需要研发产业规模的安全技术来增强模型对抗此类提示。

Oct, 2023

解释性和高性能的仇恨和冒犯性言论检测

该研究建立了一个基于 XGBoost 算法的可解释且易于理解的模型（使用 Twitter 数据）来检测社交媒体平台上的仇恨言论和冒犯性言论，并通过 Shapley Additive Explanations（SHAP）方法，使得模型能够解释和解读其输出结果。该模型的 F1 得分高于 LSTM，AutoGluon 和 ULMFiT 模型。

Jun, 2022

基于大型语言模型提取理由的可解释仇恨言论检测

为了解决社交媒体中的仇恨言论问题，本文提出使用最新的大型语言模型（LLMs）从文本中提取特征，以训练基于仇恨言论分类器，从而实现设计上的可信解释性。全面评估了多个社交媒体仇恨言论数据集，证明了 LLMs 提取的解释特征的优越性以及实现解释性后依然保持良好性能的惊人结果。

Mar, 2024

HARE：可解释的仇恨言论检测配有逐步推理

通过使用大型语言模型 (LLM) 的推理能力填补对仇恨言论解释中的知识缺口，我们提出了一种新的仇恨言论检测框架 HARE，该方法使用模型生成数据相较于已有人工注释的基线，能够持续优于其他方法，并 verbess ustheeoub 井 unseendatasets 数据集的泛化性能。

Nov, 2023

HateProof：恶意 Meme 检测系统真的稳健吗？

社交媒体上传播仇恨的行为越来越多，其中包括使用多模态方式的恶意内容，容易被现有的检测系统所规避。本文通过对现有系统进行外部对抗攻击，检验了其脆弱性，并提出了使用对比学习和基于对抗训练的方法来提高鲁棒性。实验结果表明，使用这两种方法可以在某些攻击下重获性能。

Feb, 2023

解释的力量：走向自动去偏见的仇恨言论检测

本研究提出了一种自动的误用检测器，该检测器依赖于解释方法来检测潜在的偏见，并基于此构建了端到端的去偏扭框架，适用于文本分类器而无需任何外部资源。

Sep, 2022

DeepHateExplainer: 可解释的低资源孟加拉语仇恨言论检测

该论文提出了一种名为 DeepHateExplainer 的方法，利用神经集成（即单语言孟加拉 BERT-base、多语言 BERT-cased/uncased 和 XLM-RoBERTa）从计算资源匮乏的孟加拉语中分类政治、个人、地缘政治和宗教仇恨，通过敏感度分析和层内关联传播技术（LRP）鉴别出最重要和最不重要的术语，评估得分表明，该方法对底层的机器学习和神经网络模型均有较好的表现

Dec, 2020

NLP 模型的解释方法稳健性

本文研究了关于文本模态下解释方法的鲁棒性及针对文本解释方法的对抗攻击，结果表明，输入语句及其语义的微小改变可以在很大程度上扰乱解释方法，达到 86% 的成功率。

Jun, 2022

社交网络中检测恶意网络欺凌和仇恨言论的深度学习方法

本研究针对社交网络文本数据中含有的对抗性攻击内容，特别强调仇恨言论的网络欺凌进行检测，利用基于深度学习的方法和纠错算法，实现了显著结果。LSTM 模型在固定的 100 个时期内表现出色，准确率、精确率、召回率、F1 分数和 AUC-ROC 分数分别达到了 87.57%、88.73%、87.57%、88.15% 和 91%。此外，LSTM 模型的性能超过了先前的研究。

May, 2024