基于大型语言模型提取理由的可解释仇恨言论检测

Mar, 2024

基于大型语言模型提取理由的可解释仇恨言论检测

Towards Interpretable Hate Speech Detection using Large Language Model-extracted Rationales

Ayushi Nirmal, Amrita Bhattacharjee, Paras Sheth, Huan Liu

TL;DR为了解决社交媒体中的仇恨言论问题，本文提出使用最新的大型语言模型（LLMs）从文本中提取特征，以训练基于仇恨言论分类器，从而实现设计上的可信解释性。全面评估了多个社交媒体仇恨言论数据集，证明了 LLMs 提取的解释特征的优越性以及实现解释性后依然保持良好性能的惊人结果。

Abstract

Although social media platforms are a prominent arena for users to engage in interpersonal discussions and express opinions, the facade and anonymity offered by social media may allow users to spew →

social media hate speech interpretability large language models detector performance

发现论文，激发创造

利用人工智能打击网络仇恨：探索大型语言模型在仇恨言论检测中的挑战和机遇

我们的研究通过综述和实证分析，揭示大型语言模型在检测恶意言论中的能力和限制，强调它们作为分类器的角色以及发现优秀的模型和他们的特点和训练方法，为理解大型语言模型在关键的恶意言论检测领域的能力做出贡献。

Mar, 2024

大型语言模型应用于实际世界仇恨言论检测的调查

使用大型语言模型和四种不同的提示策略，发现大型语言模型能够有效地检测恶意言论并超过当前基准机器学习模型的性能，提示策略在高效利用大型语言模型的知识库方面起到关键作用。

Jan, 2024

HARE：可解释的仇恨言论检测配有逐步推理

通过使用大型语言模型 (LLM) 的推理能力填补对仇恨言论解释中的知识缺口，我们提出了一种新的仇恨言论检测框架 HARE，该方法使用模型生成数据相较于已有人工注释的基线，能够持续优于其他方法，并 verbess ustheeoub 井 unseendatasets 数据集的泛化性能。

Nov, 2023

探索 LLMs 用于仇恨言论检测：优势和脆弱性

利用不同的提示变体、输入信息和在零样本设置中评估大型语言模型，研究探讨在检测讨厌或有害语言时使用解释、上下文和受害群体信息，并发现不仅将目标信息包含在流程中可以显著提高模型性能 (约 20-30%)，而且将理由 / 解释加入流程会在不同数据集上相较基线进一步提升性能 (约 10-20%)；此外，提供了大型语言模型无法对决策进行分类和解释的错误案例分类，这些薄弱点自动构成这些模型的越狱提示，需要研发产业规模的安全技术来增强模型对抗此类提示。

Oct, 2023

使用模型无关的方法解释仇恨言论分类

本文研究了如何使用 BERT 模型和 LIME 算法来预测和解释仇恨言论，并提出了一种模型无关的解释方法，以支持系统的决策并防止模型偏差。

May, 2023

HateTinyLLM：使用微型大型语言模型进行仇恨言论检测

本研究介绍了一种名为 HateTinyLLM 的基于精调的解码器型微型大型语言模型（tinyLLM）的新框架，用于高效检测仇恨言论。实验证明，精调的 HateTinyLLM 在检测效果上明显优于预训练的 mixtral-7b 模型。我们尝试了多个微型 LLM，包括 PY007/TinyLlama-1.1B-step-50K-105b、Microsoft/phi-2 和 facebook/opt-1.3b，并通过 LoRA 和适配器方法进行了精调。观察结果表明，所有基于 LoRA 的精调模型的准确率都超过 80%。

Apr, 2024

为什么它是仇恨言论？可解释的仇恨言论检测中基于掩码的理由预测

本研究提出了一种基于 Masked Rationale Prediction 的方法来提高仇恨言论检测模型的性能和可解释性，该方法通过预测片段来增强推理能力，从而使模型更加健壮和可解释。研究结果表明，该方法具有良好的性能和有效性。

Nov, 2022

利用可解释性设计对抗攻击并评估仇恨言论检测模型的攻击韧性

本研究综合并比较了各种仇恨言论检测模型的鲁棒性，并使用可解释性技术评估了这些模型对抗性攻击的鲁棒性，从而发现了一些潜在的漏洞和强项，并为创建更加鲁棒和可靠的检测系统打下了基础。

May, 2023

解释性和高性能的仇恨和冒犯性言论检测

该研究建立了一个基于 XGBoost 算法的可解释且易于理解的模型（使用 Twitter 数据）来检测社交媒体平台上的仇恨言论和冒犯性言论，并通过 Shapley Additive Explanations（SHAP）方法，使得模型能够解释和解读其输出结果。该模型的 F1 得分高于 LSTM，AutoGluon 和 ULMFiT 模型。

Jun, 2022

利用机器生成的理由促进对话中的社会意义检测

我们提出了一种可以推广的分类方法，利用大型语言模型（LLM）来侦测对话中隐含的社会意义。我们设计了一个多方面的提示来提取将可见线索与潜在社会意义相连接的推理的文本解释。这些提取的解释或理由作为对话文本的增强，以促进对话理解和转移。我们在 2340 个实验设置上的实证结果表明，添加这些理由具有显著的积极影响。我们的发现适用于领域内分类、零样本和少样本领域转移，对两个不同语料库涵盖的两个不同的社会意义检测任务也适用。

Jun, 2024