使用模型无关的方法解释仇恨言论分类

May, 2023

使用模型无关的方法解释仇恨言论分类

Explaining Hate Speech Classification with Model Agnostic Methods

Durgesh Nandini, Ute Schmid

TL;DR本文研究了如何使用 BERT 模型和 LIME 算法来预测和解释仇恨言论，并提出了一种模型无关的解释方法，以支持系统的决策并防止模型偏差。

Abstract

There have been remarkable breakthroughs in machine learning and Artificial Intelligence, notably in the areas of natural language processing and Deep Learning. Additionally, →

machine learning artificial intelligence natural language processing hate speech detection explainability

发现论文，激发创造

利用可解释性设计对抗攻击并评估仇恨言论检测模型的攻击韧性

本研究综合并比较了各种仇恨言论检测模型的鲁棒性，并使用可解释性技术评估了这些模型对抗性攻击的鲁棒性，从而发现了一些潜在的漏洞和强项，并为创建更加鲁棒和可靠的检测系统打下了基础。

May, 2023

解释的力量：走向自动去偏见的仇恨言论检测

本研究提出了一种自动的误用检测器，该检测器依赖于解释方法来检测潜在的偏见，并基于此构建了端到端的去偏扭框架，适用于文本分类器而无需任何外部资源。

Sep, 2022

仇恨言论分类的预测不确定性估计

为了更好地检测和过滤仇恨言论，需要开发出可以检测仇恨言论并帮助用户理解何时越过界限的机器学习模型。该研究使用深度神经网络和蒙特卡洛 dropout 正则化方法来进行预测和评估，以可靠地检测仇恨言论并提高分类可靠性和准确性。

Sep, 2019

解释性和高性能的仇恨和冒犯性言论检测

该研究建立了一个基于 XGBoost 算法的可解释且易于理解的模型（使用 Twitter 数据）来检测社交媒体平台上的仇恨言论和冒犯性言论，并通过 Shapley Additive Explanations（SHAP）方法，使得模型能够解释和解读其输出结果。该模型的 F1 得分高于 LSTM，AutoGluon 和 ULMFiT 模型。

Jun, 2022

基于大型语言模型提取理由的可解释仇恨言论检测

为了解决社交媒体中的仇恨言论问题，本文提出使用最新的大型语言模型（LLMs）从文本中提取特征，以训练基于仇恨言论分类器，从而实现设计上的可信解释性。全面评估了多个社交媒体仇恨言论数据集，证明了 LLMs 提取的解释特征的优越性以及实现解释性后依然保持良好性能的惊人结果。

Mar, 2024

利用 HateXplain 和 BERT 探索仇恨言论检测

HateXplain 采用注释的句子片段、言论分类和针对性群体，使分类更像人类，更易于解释、更准确、更少偏见。我们将 BERT 调整为使用 rationales 和类别预测进行此任务，并比较了我们在准确性、可解释性和偏见方面的不同指标上的表现。我们的新颖之处在于三个方面，首先，我们使用不同重要性值的合并 rationale 类损失进行实验。其次，我们在 rationales 上广泛实验了 ground truth attention 值。第三，为了提高我们的模型中的无意偏见，我们使用了目标社区单词的屏蔽，并记录了偏见和可解释性指标的改善。总的来说，我们成功地实现了模型的可解释性、偏见消除，并在原始 BERT 实现上取得了几项增量改进。

Aug, 2022

HARE：可解释的仇恨言论检测配有逐步推理

通过使用大型语言模型 (LLM) 的推理能力填补对仇恨言论解释中的知识缺口，我们提出了一种新的仇恨言论检测框架 HARE，该方法使用模型生成数据相较于已有人工注释的基线，能够持续优于其他方法，并 verbess ustheeoub 井 unseendatasets 数据集的泛化性能。

Nov, 2023

探索 LLMs 用于仇恨言论检测：优势和脆弱性

利用不同的提示变体、输入信息和在零样本设置中评估大型语言模型，研究探讨在检测讨厌或有害语言时使用解释、上下文和受害群体信息，并发现不仅将目标信息包含在流程中可以显著提高模型性能 (约 20-30%)，而且将理由 / 解释加入流程会在不同数据集上相较基线进一步提升性能 (约 10-20%)；此外，提供了大型语言模型无法对决策进行分类和解释的错误案例分类，这些薄弱点自动构成这些模型的越狱提示，需要研发产业规模的安全技术来增强模型对抗此类提示。

Oct, 2023

仇恨言论检测的生成式人工智能的评估和发现

使用深度神经模型自动检测仇恨言论受到标记数据稀缺性的影响，从而导致泛化能力差。为了缓解这个问题，利用生成式人工智能从现有标记示例中生成大量合成仇恨言论序列，并将生成的数据应用于微调大型预训练语言模型，如 BERT、RoBERTa 和 ALBERT。我们研究了相关方法、实验设置和这种方法的评估。此外，我们使用已经适应仇恨检测的预训练语言模型（包括 RoBERTa-Toxicity、HateBERT、HateXplain、ToxDect 和 ToxiGen）在训练集上对生成的数据进行扩充，然后应用和评估其影响。经验证实，这种方法改进了对仇恨言论的泛化能力，提高了不同数据分布下的召回性能。此外，我们还使用 GPT-3.5 模型探索和比较微调后的预训练语言模型在零样本仇恨检测方面的性能。结果表明，尽管 GPT-3.5 模型的泛化效果更好，但对大多数数据集而言，其召回率中等且精确度低。目前尚不清楚是否可以使用类似的文本生成技术来改善 GPT-3.5 及后续模型的敏感性。

Nov, 2023

DeepHateExplainer: 可解释的低资源孟加拉语仇恨言论检测

该论文提出了一种名为 DeepHateExplainer 的方法，利用神经集成（即单语言孟加拉 BERT-base、多语言 BERT-cased/uncased 和 XLM-RoBERTa）从计算资源匮乏的孟加拉语中分类政治、个人、地缘政治和宗教仇恨，通过敏感度分析和层内关联传播技术（LRP）鉴别出最重要和最不重要的术语，评估得分表明，该方法对底层的机器学习和神经网络模型均有较好的表现

Dec, 2020