Tox-BART：利用毒性属性生成隐含仇恨言论的解释

ACLJun, 2024

Tox-BART：利用毒性属性生成隐含仇恨言论的解释

Tox-BART: Leveraging Toxicity Attributes for Explanation Generation of Implicit Hate Speech

Neemesh Yadav, Sarah Masud, Vikram Goyal, Vikram Goyal, Md Shad Akhtar...

TL;DR利用语言模型为隐藏的仇恨帖子生成解释是一个活跃的研究领域，解释的目的是明确潜在的刻板印象并帮助内容管理员。研究通常结合前 k 个相关的知识图谱 (KG) 元组来提供世界知识并改善标准指标的性能，但我们的研究提出了冲突的证据，认为 KG 元组的质量在生成隐含解释方面的作用不明确。因此，将外部毒性信号纳入的简化模型优于 KG 融合模型。在 SBIC（LatentHatred）数据集上，我们观察到相当的性能表现，BLEU、ROUGE-L 和 BERTScore 的性能变化分别为 + 0.44 (+0.49)、+1.83 (-1.56) 和 - 4.59 (+0.77)。进一步的人工评估和错误分析表明，我们提出的设置比零样本 GPT-3.5 产生了更精确的解释，突显了任务的复杂性。

Abstract

Employing language models to generate explanations for an incoming implicit hate post is an active area of research. The explanation is intended to make explicit the underlying stereotype and aid →

language models explanations implicit hate post knowledge graph content moderators

发现论文，激发创造

探索 LLMs 用于仇恨言论检测：优势和脆弱性

利用不同的提示变体、输入信息和在零样本设置中评估大型语言模型，研究探讨在检测讨厌或有害语言时使用解释、上下文和受害群体信息，并发现不仅将目标信息包含在流程中可以显著提高模型性能 (约 20-30%)，而且将理由 / 解释加入流程会在不同数据集上相较基线进一步提升性能 (约 10-20%)；此外，提供了大型语言模型无法对决策进行分类和解释的错误案例分类，这些薄弱点自动构成这些模型的越狱提示，需要研发产业规模的安全技术来增强模型对抗此类提示。

Oct, 2023

利用 HateXplain 和 BERT 探索仇恨言论检测

HateXplain 采用注释的句子片段、言论分类和针对性群体，使分类更像人类，更易于解释、更准确、更少偏见。我们将 BERT 调整为使用 rationales 和类别预测进行此任务，并比较了我们在准确性、可解释性和偏见方面的不同指标上的表现。我们的新颖之处在于三个方面，首先，我们使用不同重要性值的合并 rationale 类损失进行实验。其次，我们在 rationales 上广泛实验了 ground truth attention 值。第三，为了提高我们的模型中的无意偏见，我们使用了目标社区单词的屏蔽，并记录了偏见和可解释性指标的改善。总的来说，我们成功地实现了模型的可解释性、偏见消除，并在原始 BERT 实现上取得了几项增量改进。

Aug, 2022

ToxVis: 交互式可视化实现隐式与显式毒性检测模型的可解释性

通过使用深度学习解释技术，本研究开发了一个可视化交互及可解释的工具 ToxVis，通过细分隐性仇恨言论、明显性仇恨言论、非恶意内容三个类别，对在线暴恐言论进行分类，为内容审查提供了一个有价值的手段。

Mar, 2023

仇恨言论检测的生成式人工智能的评估和发现

使用深度神经模型自动检测仇恨言论受到标记数据稀缺性的影响，从而导致泛化能力差。为了缓解这个问题，利用生成式人工智能从现有标记示例中生成大量合成仇恨言论序列，并将生成的数据应用于微调大型预训练语言模型，如 BERT、RoBERTa 和 ALBERT。我们研究了相关方法、实验设置和这种方法的评估。此外，我们使用已经适应仇恨检测的预训练语言模型（包括 RoBERTa-Toxicity、HateBERT、HateXplain、ToxDect 和 ToxiGen）在训练集上对生成的数据进行扩充，然后应用和评估其影响。经验证实，这种方法改进了对仇恨言论的泛化能力，提高了不同数据分布下的召回性能。此外，我们还使用 GPT-3.5 模型探索和比较微调后的预训练语言模型在零样本仇恨检测方面的性能。结果表明，尽管 GPT-3.5 模型的泛化效果更好，但对大多数数据集而言，其召回率中等且精确度低。目前尚不清楚是否可以使用类似的文本生成技术来改善 GPT-3.5 及后续模型的敏感性。

Nov, 2023

HARE：可解释的仇恨言论检测配有逐步推理

通过使用大型语言模型 (LLM) 的推理能力填补对仇恨言论解释中的知识缺口，我们提出了一种新的仇恨言论检测框架 HARE，该方法使用模型生成数据相较于已有人工注释的基线，能够持续优于其他方法，并 verbess ustheeoub 井 unseendatasets 数据集的泛化性能。

Nov, 2023

重新审视仇恨言论基准：从数据筛选到系统部署

该研究旨在提出一种名为 GOTHate 的数据集，包含了多语言和多主题，并引入内源信号来增强恶意言论检测任务。作者开发出了一种多语言模型 HEN-mBERT，其通过历史、拓扑和范例等内源信号来改善语义分析。实验结果表明，该模型相较于其他模型提升了 2.5% 的整体宏 F1 值和 5% 的恶意言论 F1 值。

Jun, 2023

ToXCL: 毒性言论检测和解释的统一框架

为了解决网络毒性言论的问题，本文提出了一个统一框架 ToXCL，用于检测和解释隐含的毒性言论，并取得了最新最有效的结果，明显优于基线模型。

Mar, 2024

基于 BERT 的在线社交媒体仇恨言论检测的迁移学习方法

本研究提出了一种基于 BERT 和 Transfer Learning 的新型方案，以捕获社交媒体内容中的仇恨语境，并证明该方案能有效解决标注数据不足和存在偏差的问题，使得模型性能得到提升。

Oct, 2019

ToxiGen：一个大规模机器生成的用于对抗和隐式仇恨言论检测的数据集

本论文介绍了 ToxiGen，一个新的大规模自动生成的 274k 毒性和良性陈述数据集，用于检测涉及 13 个少数群体的文本。通过使用基于展示的提示框架和诱导循环解码方法来生成微妙的毒性和良性文本，ToxiGen 能够覆盖范围更广的暗含毒性文本，包括更多样化的人口群体。与此同时，研究者通过人类评估表明，94.5％的毒性示例被人类标注者标记为仇恨言论。合理的数据利用对文本分类器的提高有积极的作用。

Mar, 2022

使用模型无关的方法解释仇恨言论分类

本文研究了如何使用 BERT 模型和 LIME 算法来预测和解释仇恨言论，并提出了一种模型无关的解释方法，以支持系统的决策并防止模型偏差。

May, 2023