ToxVis: 交互式可视化实现隐式与显式毒性检测模型的可解释性

Mar, 2023

ToxVis: 交互式可视化实现隐式与显式毒性检测模型的可解释性

ToxVis: Enabling Interpretability of Implicit vs. Explicit Toxicity Detection Models with Interactive Visualization

Uma Gunturi, Xiaohan Ding, Eugenia H. Rho

TL;DR通过使用深度学习解释技术，本研究开发了一个可视化交互及可解释的工具 ToxVis，通过细分隐性仇恨言论、明显性仇恨言论、非恶意内容三个类别，对在线暴恐言论进行分类，为内容审查提供了一个有价值的手段。

Abstract

The rise of hate speech on online platforms has led to an urgent need for effective content moderation. However, the subjective and multi-faceted nature of hateful online content, including implicit →

hate speech content moderation toxvis transformer-based models interpretable deep learning

发现论文，激发创造

ToXCL: 毒性言论检测和解释的统一框架

为了解决网络毒性言论的问题，本文提出了一个统一框架 ToXCL，用于检测和解释隐含的毒性言论，并取得了最新最有效的结果，明显优于基线模型。

Mar, 2024

ToxCCIn: 毒性内容分类与解释能力

本文提出一种改进 transformer-based models 解释性的技术，通过假设一篇文章至少和其最有毒的部分一样有毒，并将其纳入训练过程来提高模型的可解释性，实验证明该方法优于逻辑回归分析，具备更高的质量和解释性。

Mar, 2021

使用模型无关的方法解释仇恨言论分类

本文研究了如何使用 BERT 模型和 LIME 算法来预测和解释仇恨言论，并提出了一种模型无关的解释方法，以支持系统的决策并防止模型偏差。

May, 2023

Tox-BART：利用毒性属性生成隐含仇恨言论的解释

利用语言模型为隐藏的仇恨帖子生成解释是一个活跃的研究领域，解释的目的是明确潜在的刻板印象并帮助内容管理员。研究通常结合前 k 个相关的知识图谱 (KG) 元组来提供世界知识并改善标准指标的性能，但我们的研究提出了冲突的证据，认为 KG 元组的质量在生成隐含解释方面的作用不明确。因此，将外部毒性信号纳入的简化模型优于 KG 融合模型。在 SBIC（LatentHatred）数据集上，我们观察到相当的性能表现，BLEU、ROUGE-L 和 BERTScore 的性能变化分别为 + 0.44 (+0.49)、+1.83 (-1.56) 和 - 4.59 (+0.77)。进一步的人工评估和错误分析表明，我们提出的设置比零样本 GPT-3.5 产生了更精确的解释，突显了任务的复杂性。

Jun, 2024

社交媒体仇恨言论检测的迁移学习

本文介绍了一种机器学习和自然语言处理模型，通过自动识别网页文本中的仇恨言论以及利用迁移学习技术构建了一个识别仇恨言论的表示方法，并开发了一个可视化工具用于多个数据集的简要分析。

Jun, 2019

探索 LLMs 用于仇恨言论检测：优势和脆弱性

利用不同的提示变体、输入信息和在零样本设置中评估大型语言模型，研究探讨在检测讨厌或有害语言时使用解释、上下文和受害群体信息，并发现不仅将目标信息包含在流程中可以显著提高模型性能 (约 20-30%)，而且将理由 / 解释加入流程会在不同数据集上相较基线进一步提升性能 (约 10-20%)；此外，提供了大型语言模型无法对决策进行分类和解释的错误案例分类，这些薄弱点自动构成这些模型的越狱提示，需要研发产业规模的安全技术来增强模型对抗此类提示。

Oct, 2023

利用可解释性设计对抗攻击并评估仇恨言论检测模型的攻击韧性

本研究综合并比较了各种仇恨言论检测模型的鲁棒性，并使用可解释性技术评估了这些模型对抗性攻击的鲁棒性，从而发现了一些潜在的漏洞和强项，并为创建更加鲁棒和可靠的检测系统打下了基础。

May, 2023

利用 HateXplain 和 BERT 探索仇恨言论检测

HateXplain 采用注释的句子片段、言论分类和针对性群体，使分类更像人类，更易于解释、更准确、更少偏见。我们将 BERT 调整为使用 rationales 和类别预测进行此任务，并比较了我们在准确性、可解释性和偏见方面的不同指标上的表现。我们的新颖之处在于三个方面，首先，我们使用不同重要性值的合并 rationale 类损失进行实验。其次，我们在 rationales 上广泛实验了 ground truth attention 值。第三，为了提高我们的模型中的无意偏见，我们使用了目标社区单词的屏蔽，并记录了偏见和可解释性指标的改善。总的来说，我们成功地实现了模型的可解释性、偏见消除，并在原始 BERT 实现上取得了几项增量改进。

Aug, 2022

ToxiGen：一个大规模机器生成的用于对抗和隐式仇恨言论检测的数据集

本论文介绍了 ToxiGen，一个新的大规模自动生成的 274k 毒性和良性陈述数据集，用于检测涉及 13 个少数群体的文本。通过使用基于展示的提示框架和诱导循环解码方法来生成微妙的毒性和良性文本，ToxiGen 能够覆盖范围更广的暗含毒性文本，包括更多样化的人口群体。与此同时，研究者通过人类评估表明，94.5％的毒性示例被人类标注者标记为仇恨言论。合理的数据利用对文本分类器的提高有积极的作用。

Mar, 2022

多模態仇恨自動偵測演算法評估

该研究探讨了使用语义和多模态上下文来检测隐含和明确的仇恨言论，并且发现使用这种方法可以提高模型性能。同时还针对一批 5000 个多模态内容样本进行了高质量的注释，并将其释放为公开可用的语料库和代码。

Jun, 2021